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it MAC plus (oder einfach: Applikationen A RA A L (3 
Mm ADSP 1110) eröffnet Analog FIR- und IIR-Filter, schnelle Fourier- 


Devices der digitalen Transformation FFT (1024 Punkte in 
Signalverarbeitung völlig neue lO ms), schnelle Vektorrechnung. D EVI C ES 
Dimensionen. Denn MACplus - ein 
16 x 16 Bit-CMOS-Multiplizierer/ Sprechen Sie mit AD — 
Akkumulator mit Single-Port-Technik wenn digitale Signalverarbeitung 
- ist preiswerter als aufwendige Ihr Thema ist. Wir halten Sie tech- 


Signalprozessoren aber entschieden nologisch auf dem Laufenden. 
komfortabler als ein herkömmlicher 
digitaler Multiplizierer/Akkumulator 
(MAC). 






Obwohl MAC plus für erstaunlich 
wenig Geld zu haben ist, 

enthalt und bietet er weitaus 
mehr, als Sie von früheren 
Bausteinen erwarten durften: 


@ 16x 16-Bit Multiplizierer 
für Zweier-Komplement 
und Betragszahlen 

@ 40-Bit-Addierer mit 
Rundung an zwei wähl- 
baren Stellen 

@ Sättigungslogik mit Uber- 
laufanzeige 

@ Schieberegister 

@ Registeraustausch für 
„Double Precision’- 
Multiplikationen 
(32x 32 Bit) 

® Geringe Leistungsauf- 
nahme durch neue „High 
Speed”-CMOS-Technik 





MAC plus 
Die neue Formel in der 
digitalen Signalveräarbertung 
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ährend die Rech- 
W ner- und Steue- 
rungstechnik ohne 


digitale Verfahren undenk- 
bar ist, schien die Verarbei- 
tung elektrischer Signale 
insbesonderein der Nieder- 
frequenz- und Nachrichten- 
technik bisher eine Domäne 
der Analogtechnik zu sein. 
Daß man diese Signale auch 
digital verarbeiten kann, ist 
zwar lange bekannt und ließ 
sich mit Hilfe komplizierter 
mathematischer Methoden 
auch erfassen, eine breite 
Anwendung scheiterte je- 
doch bis vor einigen Jahren 
am unverhältnismäßig ho- 
hen technischen Aufwand. 


Nachdem es mit dem inzwi- 
schen erreichten Stand der 
Halbleitertechnik möglich 
ist, außerordentlich komple- 
xe Schaltungen zu integrie- 
ren, entfällt diese Einschrän- 
kung. Heute stehen speziell 
für die digitale Signalverar- 
beitung konzipierte Prozes- 
soren als Halbleiterbauele- 
mente zur Verfügung. 


Mit diesen ICs lassen sich Sy- 
steme aufbauen, die analoge 
Signale digital verarbeiten, 
undzwarin vielen Fällen 
besser als mit den herkömm- 
lichen Verfahren. Ein weite- 
rer wichtiger Punkt unter- 


Vorwort 





scheidet die digitale Signal- 
verarbeitung von der kon- 
ventionellen Technik: weil 
beim digitalen Signalprozes- 
sor das Programm die Art 
der Verarbeitung festlegt, 
läßt sich ein solches System 
ohne Verändern der Hard- 
ware modifizieren. 


Während viele technische 
Probleme mit der Verfügbar- 
keit der Bausteine gelöst 
sind, scheitert eine prakti- 
sche Anwendung oft daran, 
daß viele Entwickler zu we- 
nig Erfahrung in dieser noch 
jungen Technik haben. Hier 
soll das vorliegende Sonder- 
heft der ELEKTRONIK eine 
Hilfe sein, indem es Informa- 
tionen über die Signalprozes- 
sor-Bauelemente verschiede- 
ner Hersteller gibt und typi- 
schen Anwendungen zeigt. 
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Dr.-Ing. H.-J. Kolb 
Prozessorkonzepte 


zur digitalen Signalverarbeitung 


Die digitale Signalverarbeitung stellt hohe Anforde- 
rungen an Verarbeitungsleistung und Flexibilität von 
Prozessoren. Entsprechend den Anforderungen an die 
Systeme gibt es verschiedene Formen der Realisie- 
rung, die von der Verwendung der neuen Signalpro- 
zessorchips bis hin zum Einsatz sehr universeller und 


1 Aufgaben und Methoden der digitalen 
Signalverarbeitung 


Digitale Signalverarbeitung ist ein relativ junges 
eigenständiges Fachgebiet. Entwicklung und Erfor- 
schung der meisten Verfahren und Algorithmen wurde 
erst in den letzten Jahren einigermaßen abgeschlossen. 
Die Methoden und Verfahren der digitalen Signalverar- 
beitung setzt man im wesentlichen zur Lösung der fol- 
genden zwei Aufgaben immer häufiger ein: 
-Entwicklung von komplexen Systemen, die mit analo- 

gen Mitteln nicht realisierbar sind, 

- Digitalisierung von Systemen, die bisher mit analogen 
Mitteln realisiert wurden. Hierdurch ergeben sich die 
bekannten Vorteile der Digitaltechnik, die durch die 
Stichworte vereinfachte Produktion und Wartung, 
Zuverlässigkeit, Stabilität, Programmierbarkeit usw. 
beschrieben werden. 

Auffallend ist, daß es gerade viele nicht nachrichten- 
technische Bereiche sind, in denen die Methoden erfolg- 
reich einzusetzen sind. Beispiele finden sich hierfür in 
der Medizintechnik, Verfahrenstechnik, Regelungstech- 
nik usw. Hieraus ergibt sich für viele Anwender die 
Notwendigkeit, sich in bisher unbekannte Methoden 
und Verfahren einzuarbeiten. Im folgenden werden des- 
halb einige typische Algorithmen vorgestellt, um die 
Grundlage für die nachfolgenden Leistungsvergleiche zu 


aufwendiger Prozeßrechner reichen. Der folgende Bei- 
trag zeigt in einem Überblick die möglichen Konzepte 
und momentan verfügbaren Systeme. In einer kurzen 
Einführung in typische Algorithmen der Signalverar- 
beitung werden die Anforderungen in anschaulicher 
Weise verdeutlicht. 


schaffen. Es ist nicht das Ziel dieser Arbeit, eine kom- 
plette systemtheoretische Beschreibung zu geben. Dar- 
über existiert umfangreiche Literatur [1, 2]. 
Ausgangspunkt für alle digitalen Verfahren ist ein 
Signal, das durch eine Zahlenfolge dargestellt wird. Bei 
der Verarbeitung analoger Größen gewinnt man diese 
Zahlenfolge durch die Abtastung eines analogen 
Signales mit anschließender Analog-Digital-Umsetzung. 
Diese Abtastung erfolgt in der Regel fortlaufend, ohne 
Unterbrechung, zu äquidistanten Zeitpunkten. Fehler, 
die bereits hier, vor der eigentlichen Verarbeitung, ent- 
stehen (z.B. Aliasing, Quantisierungsfehler), werden 
hier nicht weiter diskutiert. Sie waren und sind Gegen- 
stand verschiedener Untersuchungen, Ergebnisse kön- 
nen der Literatur entnommen werden [1]. Bild 1 zeigt 
schematisch die Aufgaben und Funktionsblöcke eines 
digitalen Systems zur Verarbeitung analoger, eindimen- 
sionaler Signale. Das bandbegrenzte Signal v(t) wird 
abgetastet und anschließend von analoger in digitale 
Form umgesetzt. Der A/D-Umsetzer liefert an seinem 
Ausgang die Folge v(k), die im Signalprozessor der 
eigentlichen Verarbeitung unterworfen wird. Das Ergeb- 
nis dieser Verarbeitung ist in der Regel eine Zahlenfolge 
y(k). In vielen Fällen werden die Ausgangswerte y(k) im 
gleichen Zeitraster wie die der Eingangsfolge v(k) 
errechnet. Benötigt man die Ergebnisse der Verarbeitung 
wiederum als analoges Signal, so ist eine Digital-Analog- 








k-T 
Bild 1. v(t) 
Typisches System zur digitalen or 


Verarbeitung analoger Signale 





y{t) 
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Umsetzung mit anschließender Glättung des Zeitsigna- 
les in einem geeigneten Tiefpaß erforderlich. 

Innerhalb der Signalverarbeitung bilden die Metho- 
den zur digitalen Filterung eine wesentliche Gruppe. 
Man unterscheidet rekursive und nichtrekursive Verfah- 
ren. Bild 2 zeigt das Blockschaltbild eines nichtrekursi- 
ven Filters in der direkten Struktur. Bei den rekursiven 
Verfahren werden vergangene Filterausgangswerte 
v(k-1), y(k-2), ... zur Berechnung des aktuellen Aus- 
gangswertes y(k) herangezogen. Im Gegensatz zur nicht- 
rekursiven Filterung gibt es hier eine Vielzahl verschie- 
dener, zweckmäßiger Strukturen und Realisierungsmög- 
lichkeiten. Diese Vielfalt resultiert aus unterschiedli- 
chem Verhalten bezüglich der Fehlerfortpflanzung, der 
Stabilität sowie des numerischen Aufwandes bei der 
Berechnung der Filterausgangswerte y(k). Eine sehr häu- 
fig verwendete Methode zur Realisierung rekursiver Fil- 
ter ist die Kaskaden- oder Parallelanordnung von Blök- 
ken 2. Grades. Bild 3 zeigt ein Beispiel für die Realisie- 
rung eines Blockes 2. Grades in der 1. kanonischen 
Form. Filter höheren Grades werden durch Kaskadie- 
rung oder Parallelanordnung dieser Basisbausteine rea- 
lisiert. 

An den gegebenen Beispielen aus dem Bereich der 
digitalen Filterung ist ersichtlich, daß die zentrale 
Rechenoperation hier die Berechnung des Skalarpro- 
duktes zweier Vektoren ist. Auch andere Algorithmen, 
wie z.B. die Berechnung von Korrelationsfunktionen, 
enthalten als wesentlichen Teil diese Skalarproduktbil- 
dung. Auffällig ist dabei, daß die Algorithmen im Gegen- 
satz zu anderen Datenverarbeitungsaufgaben verhältnis- 
mäßig viele Multiplikationen enthalten. Wesentlich ist 
darüber hinaus die Verwaltung der Zustandsgrößen im 
Datenspeicher. Hieraus ergibt sich die Forderung nach 
bestimmten, bei Universalrechnern unüblichen Adres- 
sierungsarten (zZ. B. Modulo-Adressierung). Diese Ergeb- 
nisse finden sich auch bei praktisch allen anderen Algo- 
rithmen innerhalb der Signalverarbeitung. 

Eine weitere sehr wichtige Operation in der digitalen 
Signalverarbeitung ist die diskrete Fouriertransforma- 


Tabelle 1. Forderungen an Signalprozessoren 





Daten: ausreichende Wortlänge (16 Bit) 
Koeffizienten: ausreichende Wortlänge 
Arithmetik: schnelle Multiplikation, 
schnelle Akkumulation 
Architektur: schneller Datentransfer vom Speicher 


in die Arithmetikeinheiten 
möglichst große Speicher für 
Programme, Daten und Koeffizienten 





tion. Bild 4 zeigt den Signalflußgraph zur Berechnung 
der DFT für eine Eingangsfolge mit komplexen Elemen- 
ten der Länge 8. Ähnlich wie bei der rekursiven Filte- 
rung gibt es auch hier eine Vielzahl verschiedener Algo- 
rithmen zur möglichst schnellen Berechnung dieser 
Transformation. Bild 4 zeigt als Beispiel „decimation in 
frequency — radix 2“. Wie im Falle der digitalen Filte- 
rung, wird auch hier die große Anzahl von Multiplika- 
tionen deutlich. 

Eine wesentliche Frage bei der Realisierung der unter- 
schiedlichen Algorithmen ist die Spezifikation der 
Arithmetik. An sich wäre es aus der Forderung nach 
einer hohen Dynamik oder einer hohen Genauigkeit und 
damit einem großen Signal-Störabstand wünschenswert, 
Gleitkommaarithmetik mit möglichst großer Mantissen- 
und Exponentenwortlänge zu verwenden. Jedoch schei- 
tert die Erfüllung dieses Wunsches in den meisten Fäl- 
len an der Forderung nach möglichst geringem Aufwand 
und/oder nach einer hohen Rechenleistung. Häufig ist 
aber mit 16-Bit-Festkommaarithmetik ein guter Kompro- 
miß zwischen den Wünschen nach hoher Dynamik und 
günstigem Signal-Störabstand einerseits und minima- 
lem Aufwand andererseits zu erreichen. 

Bereits an diesen einfachen ausgewählten Beispielen 
lassen sich die aus den Algorithmen resultierenden For- 
derungen erkennen, die an Signalprozessoren zu stellen 
sind. Eine zusammenfassende Darstellung ist in 
Tabelle 1 angegeben. 





n 
y(k) = > hotll-ulk-i 
i=0 








Bild 2. Nichtrekursives Filter nten Grades in der direkten Struktur 





2 1 
yikl= 2 bi-ulk-2+i)- 2 G+ylk-2+i) 
i=0 i=D 


Bild 3. Rekursiver Block 2. Grades in der 
1. kanonischen Form 
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ıx N-1 4 
wee’N; Xin=) X{Klew 
k=0 


Bild 4. Signalflußgraph zur Berechnung einer diskreten Fou- 
riertransformation der Länge 8 











2 Verschiedene Konzepte integrierter 
Signalprozessoren 


Die wachsende Anzahl von Aufgaben und Problemen, 
die mit den Methoden der Signalverarbeitung bearbeitet 
und gelöst werden, führte zur Entwicklung verschiede- 
ner Signalprozessoren oder Bausteinfamilien zur mög- 


lichst guten Unterstützung der Systementwickler. Man 
kann hierbei verschiedene Konzepte und Strategien bei 
den Herstellern erkennen, die in Tabelle 2 neben den 
einzelnen aufgeführten Bausteinen zusammenfassend 
dargestellt sind. 

AMD verfolgt das offensichtliche Ziel, die Bausteinfa- 
milien zur Vereinfachung der Realisierung leistungsfä- 
higer flexibler mikroprogrammierter Systeme weiter zu 
ergänzen und auszubauen. Hervorzuheben ist die sehr 
angenehme und häufig entscheidende Eigenschaft der 
Kaskadierbarkeit der einzelnen Slice-Elemente zu belie- 
bigen Wortlängen, die sich wie bei den Bit-Slice-Ele- 
menten der Bausteinfamilie Am2900 auch bei der 8-Bit- 
Registe/ALU Am29501 findet. Dieses Konzept kann 
nicht mehr ohne weiteres auf die Realisierung von Paral- 
lelmultiplizierer-Bausteinen übertragen werden. AMD 
hat sich damit auch zur Entwicklung eines 16-Bit-Paral- 
lelmultiplizierer-Bausteines entschlossen, der dem ver- 
gleichbaren entsprechenden Multiplizierer von TRW 
sehr ähnlich ist. 

Auch die Bausteine der Firma TRW sind für Systeme 
höchster Leistungsfähigkeit konzipiert. Man findet Mul- 
tiplizierer sowie Multiplizierer mit integrierten Akku- 
mulatoren für unterschiedliche Wortlängen. Sind Wort- 
längen von weniger als 16 Bit für die Verarbeitung von 
z.B. Audio-Signalen häufig unzureichend, so gilt dies 
nicht für die Verarbeitung von Videosignalen. Mit den 
verfügbaren, wie auch den angekündigten Bausteinen 
dieser Familien ist eine Video-Echtzeitverarbeitung bei 
Multiplikationszeiten von 50...100 ns bereits möglich. 
Auch bei TRW ist die Tendenz festzustellen, das TTL- 
Programm durch schnelle, weniger Leistung verbrau- 
chende MOS-Bausteine zu ergänzen. Angekündigt ist 
ein 16-Bit-Multiplizierer/Akkumulator in CMOS-Tech- 
nik mit 100 ns Multiplikationszeit und 300 mW Verlust- 
leistung. Eine weitere sehr interessante Ergänzung ist 


Tabelle 2. Zusammenstellung derzeit bekannter Signalprozessorbausteine (Stand Mitte 1982) 








Register/ALU 8-Bit-Slice 


Am29501 
Am29516/17 Multiplizierer 16 Bit 
Am29520/21 Multilevel-Pipeline-Register 
Am29540 FFT-Adreß-Sequencer 
AMI S2811 universeller Signalprozessor 
52814 FFT programmierter S2811 
S2815 Filter programmierter S2811 
S2816 Echoentzerrer progr. S2811 
Bell DSP universeller Signalprozessor 
Intel 2920 universeller Signalprozessor 
ITT MA1000 universeller Signalprozessor 
NEC 7720 universeller Signalprozessor 
TI TMS320 universeller Signalprozessor 
TRW MPY-8/12/16HJ schnelle Festkommamultiplizierer 
TDC1008/9/10] Multiplizierer-Akkumulatoren 
TDC1022 Gleitkomma-Addierer 16+6 Bit 


Bemerkungen 





Unterstützung mikroprogrammierter 
Systeme, die vorwiegend aus MSI- 
Bausteinen aufgebaut sind 

Am29501 und Am29540 lieferbar 4.Qu.82 
Basischip ist der S2811 

Hierauf aufbauend werden verschiedene 
Chips mit festen Programmen angeboten. 
Verfügbar S2811, S2814 

Einzelstückpreis ca. 750.- DM 

DSP ist nicht auf dem freien Markt 
erhältlich 

Baustein mit Analogein- und -ausgabe- 
möglichkeit; ohne Multiplizierer 
Einzelstückpreis ca. 400.- DM 

in der Entwicklung 

EPROM-Version erhältlich 
Einzelstückpreis ca. 1000.- DM 

Die Bausteine sind konzipiert, um in 
speziellen Prozessoren höchster Leistung 
eingesetzt zu werden (Videosignalv.) 
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mit Bausteinen zur schnellen Gleitkommaverarbeitung 
gegeben. Das erste Produkt in diesem Bereich ist ein 22- 
Bit-Gleitkomma-Addierer mit 16-Bit-Mantisse und 6- 
Bit-Exponent. Auch hier sind Verarbeitungszeiten von 
weniger als 100 ns angegeben. Mit der Verwendung der 
Gleitkomma-Arithmetik ergibt sich eine wesentliche 
Erhöhung der Dynamik in der digitalen Verarbeitung. 
Weiterhin entfällt die insbesondere bei rekursiven Algo- 
rithmen sehr aufwendige Skalierung. Dieses Problem 
stellt sich ähnlich wie bei der Programmierung des 
Analogrechners. Auch in der digitalen Verarbeitung ist 
es bei Verwendung der Festkomma-Arithmetik anzu- 
streben, die verschiedenen Arithmetikeinheiten mög- 
lichst voll auszusteuern, um trotz des unvermeidlichen 
Rundungsrauschens einen möglichst großen Signal- 
Störabstand zu erhalten. 

Die verbleibende Gruppe von Einchip-Signalprozes- 
soren verschiedener Hersteller ist konzipiert, um in sehr 
viel kompakteren Systemen eingesetzt zu werden. Hier 
war das Ziel nicht nur eine hohe Leistungsfähigkeit, 
sondern auch, möglichst alle benötigten Funktionen 
eines kompletten Prozessors auf einem Chip zu integrie- 
ren. Die erreichten Ergebnisse zeigt der folgende Ab- 
schnitt. 


3 Einchip-Signalprozessoren 


Grundsätzlich ist es interessant und aufschlußreich, 
die Leistungsmerkmale der verschiedenen Signalprozes- 


soren und Prozessorkonzepte zu vergleichen. Hierbei 
muß darauf hingewiesen werden, daß ein derartiger 
Vergleich nur eine grobe Übersicht bieten kann. Im 
Einzelfall können zusätzliche Argumente entscheidende 
Bedeutung erlangen. Insbesondere kann der Vergleich in 
Tabelle 3 den Einfluß der verschiedenen Arithmetik- 
Realisierungen auf das Fehlerverhalten im Ausgangssi- 
gnal nur sehr unzureichend erläutern, obwohl gerade 
dieser Fehlereinfluß häufig eine wichtige Rolle spielt. 
Hierbei sind Eigenschaften wie z. B. Akkumulatorwort- 
länge, Wortlängenverkürzung im Anschluß an die Mul- 
tiplikation oder Akkumulation insbesondere bei rekursi- 
ven Algorithmen von entscheidender Bedeutung. Wei- 
terhin ist eine Einbeziehung der Bausteinfamilien von 
AMD und TRW in diese Übersicht nicht möglich, da 
man für diese wegen der vielen Freiheitsgrade bei der 
Wahl der Prozessorarchitektur keine typischen 
Signalprozessorstrukturen angeben kann, die in diesem 
Vergleich angeführt werden könnten. 

Tabelle 3 zeigt, daß mit den vorhandenen Signalpro- 
zessoren die Möglichkeit gegeben ist, typische Algorith- 
men der Signalverarbeitung für Signale im Audio- 
Bereich zu realisieren. Weiterhin zeigen sich deutliche 
Unterschiede in der Leistungsfähigkeit der Prozessor- 
chips. Der am längsten verfügbare Prozessor 2920 (Intel) 
ist der einzige ohne einen integrierten Parallelmultipli- 
zierer. Multiplikationen werden hier mit hohem Zeitauf- 
wand mittels Software realisiert. Dafür enthält dieser 
Baustein einen 9-Bit-A/D- und D/A-Umsetzer, was das 
Interface-Problem in einer analogen Umgebung ent- 


Tabelle 3. Leistungsmerkmale der Einchip-Signalprozessoren (Stand: Juni 1982) 
* = entweder keine Angaben verfügbar oder Vergleich auf Grund einer starken Abhängigkeit der Rechenzeit von den Koeffizienten nicht sinnvoll 


Technologie V-MOS NMOS NMOS NMOS NMOS NMOS 

Anzahl der 28 40 28 * 28 40 

Anschlüsse 

Programm- 250x17 Bit 1024x16 Bit 192x24 Bit 512x26 Bit 512x23 Bit 1,5k-4kx16 Bit 

speicher ROM ROM EPROM ROM ROM/EPROM ROM/Off chip 

RAM 128x16 Bit 128x20 Bit 40x25 Bit 32x8-Bit-Koeff. 128x16 Bit 144x16 Bit 
128x24 Bit-Dat. 

ROM (Daten) 128x16 Bit — —_ 128x8 Bit 512x13 Bit 

Akkumulator 16 40 25 24 16 32 

Wortlänge 

(in Bit) 

Hardware- 12x12-16 Bit 20x16-35 Bit Software 16x8 Bit 16x16-31 Bit 16x16-3 Bit 

multiplizierer 

EPROM-Version nein nein ja nein ja nein 

verfügbar? 

Befehlszyklus-- 300 800 400 250 250 200 

zeit (ns) 

Operation multipliz. multipliz. shift multipliz. multipliz. multipliz. 

pro addieren addieren addieren addieren addieren addieren 

Zyklus speichern speichern speichern 

rekursiver 2,1 us 4,0 us * * 2,5 us * 

Block 

2. Grades 

FFT 1500 us = * * 700 us ® 

32 Punkte 

komplex 

Versorgung +5 V/ıW +5 W1,5 W +5 V,-5 W0,8W +5V +5 V/0,9W +5 V/0,95 W 
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scheidend vereinfachen kann. Es ist jedoch zu beachten, 
daß diese 9 Bit für viele Anwendungen keinen ausrei- 
chenden Signal-Störabstand gewährleisten. 

Der Signalprozessor S2811 der Firma AMI wurde pri- 
mär zur Kopplung an den 8-Bit-Mikroprozessor 6800 
konzipiert. Wie bei allen anderen Signalprozessoren ist 
jedoch auch hier der autonome Betrieb möglich. Der 
52811 enthält einen 12x12-Bit-Multiplizierer neben 
einer arithmetischen Einheit mit 16 Bit. Für viele Algo- 
rithmen stellt die hieraus resultierende maximale Wort- 
länge von 12 Bit für Daten und Koeffizienten bei der 
Multiplikation eine starke Beschränkung dar. Weiterhin 
ist der Prozessor S2811 nicht in EPROM-Version verfüg- 
bar, was die Entwicklung von Software erschwert und 
die Anwendungen auf große Stückzahlen beschränkt. 
AMI begegnet diesem Problem durch die Entwicklung 
vorprogrammierter Prozessoren für bestimmte häufig 
auftretende Problemstellungen. Ein Beispiel hierfür ist 
der bereits verfügbare Baustein S2814 zur Berechnung 
der FFT; weitere Bausteine sind angekündigt. 

Der in der Entwicklung befindliche Prozessor 
MA 1000 von ITT weist im Vergleich zu den leistungsfä- 
higsten Bausteinen der Firmen Bell, NEC und Texas 
Instruments starke Beschränkungen auf. Sein Multipli- 
zierer ist im Vergleich deutlich leistungsschwächer. Es 
muß bezweifelt werden, ob sich dieser Baustein nach 
der Fertigentwicklung auf dem allgemeinen Markt 
durchsetzen kann. 

Sehr leistungsfähig sind die gleichzeitig auch jüngsten 
Bausteine der Firmen Bell, NEC und Texas Instruments. 
Diese erlauben die Realisierung umfangreicher und 
auch aufwendiger Verfahren der Audiosignalverarbei- 
tung. Insbesondere für die Prozessoren 7720 (NEC) und 
DSP (Bell) gibt es eine große Zahl von Veröffentlichun- 
gen zu typischen Anwendungsbeispielen aus den Berei- 
chen der Datenübertragung und der Sprachverarbeitung. 
Der angekündigte Baustein TMS320 (ausführliche 
Beschreibung in diesem Heft) weist als Besonderheit 
eine 32-Bit-ALU auf. Obwohl der Baustein 7720 von 


Tabelle 4. Rechenzeiten von 16-Bit-Mikroprozessoren bei 
typischen Signalverarbeitungsalgorithmen 


(* = Bezieht sich auf ein System aus 8085, NEC 7720 und DMA- 
Controller) 


Texas 
9900 

3 MHz 
Intel 
8086 
10 MHz 
Zilog 
Z8000 
8 MHz 
NEC 
7720 

8 MHz 


1730 us 4651 us _ 


527 us 1475 us 340 ms 


365 us 800 us 174 ms 


12,5 us 66 us etwa 20 ms* 





NEC eindeutig die momentan größte Leistungsfähigkeit 
besitzt, weist der DSP von Bell Vorteile auf, wenn man 
den Fehlereinfluß durch die begrenzte Wortlänge 
berücksichtigt. Er besitzt als einziger Prozessor eine 
Wortlänge von 20 Bit für die Daten, was ihn zum Bei- 
spiel für die Verarbeitung sehr hochwertiger Signale im 
Audio-Bereich geeignet macht. Auch der Akkumulator 
ist im Gegensatz zum NEC-Chip in der Lage, die volle 
Wortlänge des Multiplikationsergebnisses in einem 
Zyklus zu verarbeiten. Damit werden Fehler, die durch 
laufende Wortlängenverkürzung entstehen, minimiert. 
Weiterhin besitzt der DSP als einziger Chip besondere 
Vorkehrungen zur Ausführung einer Rundung bei der 
Wortlängenverkürzung, was die Fehlerwirkung weiter 
reduziert. Der DSP wird von Bell nicht auf dem freien 
Markt verkauft. Eine ähnliche Politik ist auch bei ande- 
ren Herstellern festzustellen; z.B. verfügt NEC über 
noch leistungsfähigere Prozessoren, die nur in eigenen 
Produkten verwendet werden. 


4 Realisierung der Signalverarbeitungs-Algorith- 
men auf universellen Rechnern und Prozes- 
soren 


Bei der Betrachtung von Systemen zur Signalverarbei- 
tung sollte darauf hingewiesen werden, daß der weitaus 
größte Teil der Nicht-Echtzeit-Signalverarbeitung, wie 
auch der Verarbeitung von Signalen mit geringer Band- 
breite von einigen Hundert Hertz, seit langem auf Uni- 
versalrechnern abgewickelt werden. Zur Verringerung 
der Verarbeitungszeiten auf kleineren Anlagen werden 
hierbei häufig Array-Prozessoren eingesetzt. Vorteil die- 
ser Vorgehensweise ist eine sehr viel einfachere und 
komfortablere Programmerstellung, die gerade im 
Bereich der Forschung und Algorithmenentwicklung 
wichtiger als schnelle Echtzeitverarbeitung ist. Es 
kommt hinzu, daß die Effekte der begrenzten Wortlänge, 
bedingt durch die hier üblicherweise angewandte Gleit- 
kommaarithmetik meist unberücksichtigt bleiben kön- 
nen. Nachteilig ist bei vielen Aufgaben der bei einer 
relativ geringen Verarbeitungsleistung hohe Aufwand 
dieser Systeme. 

Andererseits darf nicht übersehen werden, daß selbst- 
verständlich die Möglichkeit besteht, die Algorithmen 
auf jedem universellen Mikroprozessor zu implementie- 
ren. Tabelle 4 zeigt Ergebnisse, die am Lehrstuhl für 
Nachrichtentechnik der Universität Erlangen in insge- 
samt drei Diplomarbeiten an verschiedenen Mikropro- 
zessorsystemen ermittel wurden. Es ist darauf hinzuwei- 
sen, daß es sich hierbei um Messungen an Programmen 
handelt, deren Rechenzeitbedarf minimiert wurde. Die 
einzelnen Mikroprozessorsysteme werden nicht durch 
zusätzliche Hardware, wie z.B. Multiplizierer unter- 
stützt. Die gesamten Programme sind für 16-Bit-Fest- 
kommaarithmetik realisiert. Damit ist ein unmittelbarer 
Vergleich mit den Signalprozessoren NEC 7720, Bell 
DSP und dem Texas TMS320 möglich. Zum besseren 
Vergleich der Leistungsfähigkeit sind in der Tabelle 4 
zusätzlich Rechenzeiten für den Signalprozessor 
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NEC 7720 angegeben. Die Ergebnisse zeigen eine deutli- 
che Überlegenheit der speziellen Signalprozessoren 
gegenüber den universellen Mikroprozessoren. Wichtig- 
ster Grund hierfür ist die spezialisierte Architektur der 
Signalprozessoren. Man hatte hier die Freiheit, mehr 
Wege auf dem Chip zu realisieren, um die Arithmetik- 
einheiten schneller mit Daten versorgen zu können. 
Üblich sind hier mindestens zwei Datenbusse. Bei den 
universellen Mikroprozessoren steht dagegen die Ver- 
einheitlichung des Bus-Systems im Vordergrund, was 
dann in der Regel auf Ein-Bus-Systeme führt. Ein weite- 
rer wesentlicher Vorteil der Signalprozessoren ist der 
integrierte Parallelmultiplizierer, der zu einer wesentli- 
chen Verkürzung der Ausführungszeiten gegenüber der 
in Firmware realisierten Multiplikation bei modernen 
Mikroprozessoren beiträgt. Trotz dieses großen Lei- 
stungsunterschiedes zwischen Signalprozessor und 
Mikroprozessor kann der Einsatz von Mikroprozessoren 
bei der Verarbeitung von Signalen mit geringer Band- 
breite, wie sie z. B. in der EEG- oder EKG-Verarbeitung 
vorliegen, durchaus sinnvoll sein. Die große Flexibilität 
dieser Systeme, ist in der Regel vorteilhaft. Weiterhin 
besteht wesentlich mehr Unterstützung bei der System- 
realisierung durch fertige Hardwarekomponenten, kom- 
plett erhältliche Systeme sowie durch den Einsatz höhe- 
rer Programmiersprachen und der momentan besseren 
Entwicklungshilfen. 


5 Einsatz spezialisierter Universal-Rechner für 
die Signalverarbeitung 


Innerhalb der Signalverarbeitung bestehen Aufgaben, 
die schnell abgewickelt werden müssen, bei denen aber 
eine Realisierung auf Signalprozessoren wegen der dort 
auftretenden Einschränkungen bei Daten- und Pro- 
grammspeicher nicht in Frage kommt. Es besteht somit 
das Problem, möglichst universelle, einfach program- 
mierbare Rechner großer Leistungsfähigkeit zu entwik- 
keln. Am Lehrstuhl für Nachrichtentechnik der Univer- 
sität Erlangen-Nürnberg wurde in den letzten Jahren 
intensiv an diesem Problem gearbeitet. Im Rahmen die- 
ser Arbeiten wurde unter anderem ein Prozessor auf der 
Basis der Bit-Slice-Elemente Am2900 von AMD entwik- 
kelt, der nun von der Firma MEDAV in Lizenz gefertigt 
wird. Tabelle 5 zeigt die wesentlichen Ziele und Eigen- 
schaften des Signalprozessors MSP82. 

Bei der Realisierung des Signalprozessors MSP82 
wurden die folgenden Ziele angestrebt: 
® einfache Prozessorarchitektur: 

erfahrungsgemäß ist es bei einer Echtzeitanwendung 

von Prozessoren in der Regel nicht zu vermeiden, sehr 

hardwarenah zu programmieren. Um hierbei die Über- 
sicht zu behalten, ist es zweckmäßig, eine möglichst 
einfache Prozessorarchitektur zu wählen. 

© einfache Erweiterbarkeit der CPU zur Erhöhung der 

Rechenleistung: 

im Normalfall besteht die CPU eines Bit-Slice Prozes- 

sors aus der Mikroprogrammsteuerung sowie der ALU. 


Hiermitsind derzeit Rechenleistungen möglich, dieum 

den Faktor 3...10 oberhalb der Rechenleistung inte- 

grierter 16-Bit-MOS-Mikroprozessoren liegen (z.B. 

Intel 8086, Texas 9900, Zilog Z8000, Motorola 68000). 

Für eine Erweiterung der arithmetischen Fähigkeiten 

der CPU bestehen drei Möglichkeiten: 

— Verwendung der ALUals Adreßrechner und Verlage- 
rung der arithmetischen Operationen in ein getrenn- 
tes Rechenwerk. ALU und Zusatzprozessor werden 
vom zentralen Mikroprogramm gesteuert. Hiermit 
wird die resultierende Rechenleistung ausschließ- 
lich von der Zeit für die notwendigen Speicherzu- 
griffe begrenzt. Manerhälteine Verarbeitungszeit, die 
sich ergibt als: 

T = N-TZ,; 

wobei N die Anzahl der benötigten Speicherzugriffe 
und TZ die Systemzykluszeit bezeichnet. Hiermit 
erhält man eine Erhöhung der Rechenleistung, um 
den Faktor 50...100 verglichen mit integrierten 16- 
Bit-MOS-Mikroprozessoren. Beim Vergleich mit der 
Rechenleistung des Signalprozessors NEC 7720 
bedeutet dies noch einen Faktor von ca. zwei. 

—- Kopplung von speziellen Rechenwerken wie z.B. 
Gleitkommavektorprozessoren über ein Dual-Port- 
RAM an den Zentralprozessor. Hiermit sind weitere 
Erhöhungen der Rechenleistung möglich, die im 
wesentlichen nur vom investierten Hardwareauf- 
wand bestimmt werden. 

— Kopplung mehrerer Prozessoren, die jeder für sich 
Spezialhardware enthalten können. Je nach Aufga- 
benstellung und Problemstruktur sind verschiedene 
Verbindungskonzepte möglich. 

Bild 5 zeigt eine Blockschaltung des Gesamtsystems 

mit den Erweiterungsmöglichkeiten. 

Wie in der gesamten Datenverarbeitung, tritt auch in 
der Signalverarbeitung das Softwareproblem immer 
mehr in den Vordergrund. Generell fordert man in der 
Signalverarbeitung von der Software eine geringe Aus- 
führungszeit sowie maximale Genauigkeit (speziell bei 


Tabelle 5. Kurzbeschreibung des Signalprozessors MSP82 





1 Datenbus 

1 Adreßbus 

Vergrößerung der Rechenleistung durch 
optionelle Zusatzprozessoren 

modularer Aufbau in Europa- und 
Doppeleuropakartentechnik, 
standardisierter Systembus, 

geringer Hardwareaufwand 

einfacher Basisbefehlssatz in Anlehnung an 
übliche Prozeßrechner, 

vektororientierter Spezialbefehlssatz zur 
Behandlung der Signalverarbeitungsaufgaben 
Betriebssystem für standalone Verwendung 
und für die Realisierung einer Rechner- 
kopplung zu einem Hostrechner 
Programmbibliotheken zu Signalverarbei- 
tungsaufgaben, 

Makrobibliotheken zur Realisierung einer 
einfachen Programmierung 


Architektur: 


Hardware: 


Firmware: 


Software: 
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Festkommaarithmetik) bei möglichst geringem Hard- 
wareaufwand. Dies führt in der Regel zu einem extrem 
hohen Aufwand bei der Softwareerstellung. Darüber 
hinaus wird die Erfüllung der genannten Zielvorstellun- 
gen häufig wesentlich vom gewählten Algorithmus 
beeinflußt, so daß hierdurch eine weitere Erhöhung des 
Aufwandes eintritt. Wesentliches Ziel bei der Realisie- 
rung des Signalprozessors MSP82 war die Reduzierung 
des Softwareaufwandes durch die Auswahl eines geeig- 
neten Maschinenbefehlvorrates (Vertikalmigration) 
sowie die Anwendung eines geeigneten Konzeptes bei 
der Erstellung der Anwendersoftware auf der Maschi- 
nenbefehlsebene. Es wird ausdrücklich darauf hinge- 
wiesen, daß sich der Einsatz von höheren Programmier- 
sprachen im vorliegenden Fall wegen des hohen Auf- 
wandes bei der Realisierung von Übersetzerprogrammen 
verbietet. Es zeigte sich, daß die folgende Vorgehens- 
weise zweckmäßig ist: 
© Grundbestandteil des Prozessorbefehlssatzes ist der 
Basisbefehlssatz, der in Anlehnung an Befehlssätze 
üblicher 16-Bit-Prozeßrechner definiert wurde. Die 
gesamte Betriebssoftware wird aufbauend auf diesem 
Befehlssatz realisiert. 
© Der Anwender sollte entsprechend seinen Anforderun- 
gen einen Spezialbefehlssatz definieren, der bei mög- 
lichstuniversellem Charakter dieoptimaleBehandlung 
seiner Probleme ermöglicht. Für Anwendungen inner- 
halb der digitalen Signalverarbeitung konnte die hohe 
Effizienz eines Vektorbefehlssatzes nachgewiesen wer- 
den [11]. Dieser Spezialbefehlssatz kann je nach 


Rechenzeitanforderungen in unterschiedlicher Weise 

realisiert werden: 

— Makros auf Maschinenbefehlsebene 

— Mikroprogrammierung 

— Mikroprogrammierung mit zusätzlicher Spezial- 
hardware (z. B. Vektorprozessor) 

— Einsatz von Spezialprozessoren, die über ein Dual- 
Port-RAM gekoppelt sind. 

© Die Programmierung erfolgt auf der Maschinenbefehls- 
ebene, wobei alle E/A-Operationen, Vektoroperationen 
usw. durch die Verwendung einer umfangreichen 
Makrobibliothek stark vereinfacht werden. 

© Die Programmerstellung erfolgt mittels Cross-Software 
aufeinem Hostrechner. Hierdurch besteht keine unmit- 
telbare Notwendigkeit, umfangreiche Betriebssoftware 
auf dem Signalprozessor zu implementieren. 

@ Erprobte Software wird in Form von möglichst univer- 
sellen und komfortablen Unterprogrammbibliotheken 
allen Anwendern zur Verfügung gestellt. Bedingt durch 
die Paging-Technik beim Programm- und Datenspei- 
cher können diese Unterprogrammbibliotheken in 
Form von ROM-Speicherkarten zur Verfügung gestellt 
werden, ohne wesentliche Bereiche des Arbeitsspei- 
chers zu belegen. Damit stehen diese Programme resi- 
dent zur Verfügung, was maximalen Komfort bei maxi- 
maler Betriebssicherheit bedeutet. Bei konsequenter 
Anwendung der Assemblerprogrammierung mittels 
anwendungsspezifischer Makros entsteht eine „Quasi- 
HHL“ (High Level Language), die dem Problemkreis 
stark angepaßt ist und trotz Assembler-Niveau eine 
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gute Strukturierung und Wartung der gesamten Soft- 

ware ermöglicht. 

Mit einer GPU, bestehend aus Mikroprogrammsteue- 
rung, ALU und Vektorprozessor (je eine Doppeleuropa- 
karte) ergeben sich die in Tabelle 6 angegebenen Lei- 
stungsmerkmale. Alle Rechenzeiten wurden bei einer 
Programmierung des MSP82 auf Maschinenbefehls- 
ebene in 16-Bit-Festkommaarithmetik ermittelt. Die 
Rechenleistungen werden hier nicht durch die Verbin- 
dung eines langsamen Zentralprozessors mit sehr lei- 
stungsfähiger Spezialhardware erzielt. Wesentlich ist 
vielmehr, daß die gesamten Operationen mit einer 
schnellen, universellen CPU realisiert werden. Diese 
Vorgehensweise ergibt für den Benutzer den Vorteil 
einer einfacheren, übersichtlichen Softwareerstellung. 
Eine weitere Erhöhung der Rechenleistung mit zusätzli- 
chen Prozessoren, entsprechend den Array-Prozessoren 
bei üblichen Prozeßrechnern, ist prinzipiell möglich. 


6 Zusammenfassung 


Die Übersicht zeigt, daß momentan eine Vielzahl von 
Möglichkeiten bestehen, Algorithmen der digitalen 
Signalverarbeitung auf mehr oder weniger universellen, 
programmierbaren Systemen zu realisieren. Welche der 
Lösungen jeweils am sinnvollsten ist, hängt stark von 
den Randbedingungen ab und muß in jedem Fall 
getrennt entschieden werden. Hierbei ist zu bedenken, 
daß diese Entscheidung die Wirtschaftlichkeit neuer 
Produkte in starkem Maße beeinflußt. Es ist eine eindeu- 
tige Tendenz der Bauelementehersteller zu erkennen, 
diesen relativ jungen Bereich auch in der Zukunft durch 
die Entwicklung immer leistungsfähigerer Prozessoren 
und Spezialbausteine zu unterstützen. Optimistische 
Schätzungen sprechen von einer Erhöhung der Rechen- 
leistung der integrierten Signalprozessoren um den Fak- 
tor 250 innerhalb der nächsten 10 Jahre [3]. Eine solche 
Entwicklung würde der digitalen Verarbeitung bislang 
nicht zugängliche Anwendungsbereiche im Bereich der 
Übertragungstechnik und der Signalverarbeitung bei 
Bandbreiten bis zu einigen MHz erschließen. 


Für die Unterstützung der Arbeiten und die stetige Gesprächsbereitschaft 
möchte der Autor Herrn Prof. Dr.-Ing. H. W. Schüßler seinen besonderen Dank 
aussprechen. 
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Tabelle 6. Leistungsmerkmale MSP82 





200 ns 
200 oder 400 ns 
1,67...5 MOp/s 


Registeroperationszeit 
Speicherzugriff 
Rechenleistung bei Vektoroperationen 


FFT 512 reelle Punkte 6 ms 
Skalarprodukt Vektorlänge 100 40 us 
Matrixmultiplikation (20x20 Matrix) 16 ms 
Polyphasenfilterbank: 
Abtastfrequenz am Eingang 8 kHz 
Abtastfrequenz am Einzelkanalausgang 200 Hz 
Länge der Filterimpulsantwort 1024 
Anzahl der Kanäle von 0...4 kHz 128 
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32-Bit-Mikrocomputer 


für Signalverarbeitung und Prozeßsteuerung 


Signalverarbeitung und Prozeßsteuerung erfordern 
komplexe Rechenvorgänge, die in kurzer Zeit ausge- 
führt werden müssen. Herkömmliche Prozessor-Archi- 
tekturen sind diesen hohen Anforderungen nicht 
gewachsen, andere Konzepte sind notwendig. Bishe- 
rige Lösungen verwendeten Logikbausteine niedriger 


Der 32-Bit-Hochleistungs-Mikrocomputer TMS320 
von Texas Instruments eignet sich insbesondere zur 
Implementierung komplexer digitaler Signalverarbei- 
tungssysteme. Der Instruktionssatz ist so ausgelegt, daß 
dieser Prozessor auch in vielen Anwendungen der 
Datenverarbeitung und Steuerungstechnik eingesetzt 
werden kann. Wichtigste Merkmale dieses Einchip- 
Computers sind: 200 ns Instruktionszyklus, 32-Bit- 
Arithmetikeinheit, 16 x 16-Bit-Parallel-Multiplizierer 
(benötigt für die Operation lediglich einen Zyklus), 
0...16-Bit-Barrel-Shifter, 288 Byte Daten-RAM (144 x 
16), Interrupt mit vollem Kontext-Schutz, 3 KByte Pro- 
gramm-ROM (1,5 K x 16) auf dem Chip, die extern auf 
8K erweiterbar sind. Verschiedene Speicherbetriebsar- 
ten erleichtern anwendungsspezifische Lösungen. 


Architektur 


Die Blockschaltung des TMS320 ist in Bild 1 darge- 
stellt. Der Prozessor besitzt eine Architektur vom Har- 
vard-Typ mit einem Akkumulator, bei der es möglich 
ist, Instruktionen zeitlich überlappend aufzunehmen 
und auszuführen. Möglich ist das, weil sich Daten und 
Programm in verschiedenen Speicheradreßbereichen 
befinden. Allerdings wurden Instruktionen vorgesehen, 
durch die die Bereiche miteinander zu verknüpfen sind. 
Aus diesem Grund kann man Konstanten für den Prozeß 
auch im eigentlichen Programmspeicher ablegen. 

Herzstück des Prozessors ist eine schnelle Arithmetik- 
einheit, die aus einer 32-Bit-ALU, einem 16-Bit-Shifter, 
dem 16 X 16-Bit-Parallelmultiplizierer sowie einem 32- 
Bit-Akkumulator besteht. Daten werden entweder aus 
dem RAM über den Shifter oder aus dem Produkt- 
Register P in die ALU geladen. Daten aus dem RAM mit 
einer Wortbreite von 16 Bit werden nach Schiebeopera- 
tionen mit Vorzeichenzusatz für Zweier-Komplement- 
Arithmetik auf 32 Bit erweitert. Arithmetik-Operationen 


Integrationsdichte. Allerdings bedeutet das hohen 
Aufwand und lange Entwicklungszeit. Monolithische 
Prozessoren, die sich für die schnelle Signalverarbei- 
tung eignen, wurden erst in der letzten Zeit entwickelt. 
Ein Beispiel dafür ist der in diesem Beitrag vorge- 
stellte 32-Bit-Typ TMS320. 


mit 32-Bit-Daten aus dem RAM werden auch durch eine 
Kombination spezieller Befehle, bei denen die Vorzei- 
chenerweiterung im Shifter unterdrückt wird, unter- 
stützt. Die ALU verfügt auch über logische Operationen 
für Steueranwendungen. Eine Sättigungs-Überlauf- 
Betriebsart dient zur Simulation von Sättigungsereignis- 
sen in Signalverarbeitungssystemen. Der 32-Bit-Akku- 
mulator wird im Multiplex-Betrieb auf den 16-Bit- 
Datenbus umgeschaltet, damit die Resultate im RAM 
gespeichert werden können. Die höherwertigen Akku- 
mulatorwerte können auch mit einem vorgegebenen Off- 
set gespeichert werden, um die Skalierung der Resultate 
zu ermöglichen. Bild 2a zeigt ein Beispiel. 


Adressierungsarten 


Der Prozessor unterstützt vier Adressierungsarten. Die 
erste ist die direkte Adressierung, sie erfolgt von einem 
7-Bit-Feld der Instruktion und einem Page-Register. Der 
Speicher ist für die direkte Adressierung in 128 Wort- 
Seiten aufgeteilt. Die zweite ist die indirekte Adressie- 
rung, bei der eines der zwei Hilfsregister (AR) Verwen- 
dung findet. Diese Register unterstützen die automati- 
schen Inkrement-/Dekrement-Operationen parallel zu 
Speicher-Bezügen und Arithmetikoperationen. Daraus 
ergeben sich zwei verschiedene Adressierarten. Die 
Auswahl des AR-Registers als Quelle für eine Adresse 
wird durch das ARP-Register festgelegt. Der Datenspei- 
cher ist so aufgebaut, daß ein Wort auf die nächsthöhere 
Adresse vom derzeitigen Speicherplatz in einem 
Maschinenzyklus dupliziert werden kann, während 
andere Operationen parallel ablaufen. In Bild 2b ist eine 
Instruktion gezeigt, die diese Eigenschaft besitzt, mit der 
Faltungen vereinfacht werden. Mit der Maschine sind 
außerdem einige direkte Operationen möglich, bei 
denen Teile des Instruktionsworts als Daten Verwen- 
dung finden. Aus diesem Grund können Programmkon- 
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Bild 1. Blockschaltung des 32-Bit-Prozessors TMS320. Der Prozessor verfügt über eine 32-Bit- 
ALU und einen 16 x 16-Bit-Multiplizierer 
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stanten wie z.B. Filter-Koeffizienten Teil des Pro- 
gramms sein. 

Auf dem Chip befindet sich ein Programm-ROM mit 
einer Organisation von 1536 Worten zu 16 Bit. Zur 
Erhöhung des Durchsatzes sind Programm-Steuerfunk- 
tionen von Daten-Manipulationen getrennt. Daher ver- 
fügt der Programm-Zähler über seinen eigenen Inkre- 
menter und einen 4-Ebenen-Stack für Unterprogramm- 
Steuerung. 


Software 


Der Prozessor verwendet 16- und 32-Bit-Instruktio- 
nen. Bei Interrupts und Unterprogramm-Aufrufen wird 
der volle Maschinen-Kontext gesichert. Verzweigungen 
können bei den meisten arithmetischen Bedingungen, 
bei Überlauf, Register 0 und ohne Bedingung erfolgen. 
Es ist ebenfalls möglich, den Akkumulator-Inhalt als 
Programm-ROM-Adresse zu verwenden, um an Kon- 
stanten, die im ROM gespeichert sind, zu gelangen, und 
zum Unterprogrammaufruf bei datenabhängigen Verar- 
beitungsvorgängen. Ein Beispiel für eine solche Instruk- 
tion zeigt Bild 2c. Der Prozessor ist zur Unterstützung 
von zwei Arten der Programm-Speicher-Operation kon- 
figuriert. Die erste Konfiguration (TMS320M10) besitzt 
ein Programm-ROM auf dem Chip und eignet sich daher 
für Einchip-Anwendungen mit hohen Stückzahlen. Eine 
Kombination aus internem ROM (1,5 K Worte) und 
externem Programmspeicher (2,5 K Worte) ist ebenfalls 
möglich und kann z.B. bei Systemen mit festen Kern- 
Routinen und unterschiedlichen Anwendungs-System- 
Konfigurationen verwendet werden. Die zweite Ausfüh- 
rung (TMS32010) unterstützt 4096 Worte externen Pro- 
srammspeicher und unterdrückt das interne ROM. Diese 
Ausführung ermöglicht, daß das Benutzer-Programm in 
einem externen 4-K-Speicher untergebracht ist und die 
Entwicklungssystem-Software in dem Programm-ROM 
auf dem Chip. Daher kann dieses Bauelement nicht nur 
zur Unterstützung der Eigen-Emulation, sondern auch 
als das eigene Entwicklungssystem verwendet werden. 
Das Interface des externen Programmspeichers arbeitet 
mit der gleichen Geschwindigkeit wie das interne ROM, 
wodurch Echtzeit-Entwicklung und -Ausführung von 
Benutzer-Programmen möglich ist. 

Ein-/Ausgangs-Operationen werden über einen paral- 
lelen 16-Bit-Bus ausgeführt, auf dem acht Kanäle defi- 
niert sind. Der Prozessor kann E/A-Operationen mit 





Wichtigste Merkmale des 32-Bit-Prozessors TMS320: 


Befehlszyklus 200 ns 
16-Bit-Befehls-/Daten-Worte 

1,5-K-ROM 

144 Worte RAM 

16 X 16-Bit-Hardware-Multiplikation (1 Zyklus) 
32-Bit-ALU und -Akkumulator 
Selbst-Emulation 

Eine Betriebsspannung (+5 V) 
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Bild 2. Beispiele für die Befehle, a) die aritnmetische Transaktion 
der Addition ACC +ACC +(m) %* (2% # s);b) LTD-Instruktion, lädt 
das T-Register, berechnet Produkt, dupliziert Daten im RAMT + | 
(m), ACC «ACC +P,(m + 1) + (m); c) TBLR-Instruktion (Table 
Read From ROM) TOS +-PC, PC + ACC, (m) + (PC), PC +-TOS 








einer Rate von 40 Mio. Bit/s ausführen. Ein Polling- 
Eingang ermöglicht softwaremäßige E/A-Steuerung, 
außerdem ist ein Interrupt-Anschluß für Hardware-E/A 
und Multitasking vorgesehen. 


Der Chip 


Hergestellt wird der 32-Bit-Prozessor TMS320 mit 
einem 3-um-Silizium-Gate-NMOS-Prozeß. Er umfaßt 
eine Chipfläche von 43,81 mm?. Die Bausteine sind in 


40poligen DIL-Gehäusen untergebracht und weisen eine 


Verlustleistung von 950 mW auf. Bei einer maximalen 


Taktfrequenz von 20 MHz beträgt die Befehls-Rate 


5 Mio. Instruktionen/s. Verschiedene Test-Arten sind 
zur Produktions-Überwachung und Ausbeute-Analyse 
vorgesehen. Für Prüfzwecke und Zuverlässigkeits-Ana- 
lysen sind Prozessor, Datenspeicher und PROM auf dem 


Chip einzeln ansprechbar. 


Anwendungen 


Die Kombination von hohem Durchsatz, 32-Bit-Opera- 
tionen, leistungsfähigem Mikroprozessor-Befehlssatz 
und umfangreichem Programmspeicher auf dem Chip 
eröffnen neue Möglichkeiten für Anwendungen in der 
digitalen Signalverarbeitung und Steuerungstechnik. 
Anwendungsgebiete für den TMS320 liegen daher in 
den Bereichen Sprachsynthese/-analyse/-erkennung, 
Bild-Verarbeitung, Modems, schnelle Steuerungen, Ver- 
arbeitung numerischer Daten. 


Nach Unterlagen der Fa. Texas Instruments, bearbeitet von P. von Bechen. 
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Einchip-Signalprozessor verarbeitet 
Analogsignale in Echtzeit 


Die digitale Echtzeitverarbeitung von Analogsigna- 
len — attraktiv, weil Kurvenformen von einem Pro- 
gramm wie Zahlen behandelt werden — war bisher 
auf spezielle Hochgeschwindigkeitsprozessoren 
beschränkt. Nur sie konnten die nötigen Berech- 


Der Baustein 2920 (Intel) entstand aus dem drän- 
genden Verlangen nach einer programmierbaren Ein- 
heit, die die verschiedenen Prozeduren und Modula- 
tionstechniken der Nachrichtentechnik unterstützt. Er 
kombiniert AD- und DA-Umsetzer mit einem Spe- 
zial-Mikrocomputer zu einem Element mit einem ein- 
zigartigen Befehlssatz, der es gestattet, komplette 
Analog-Untersysteme zu programmieren. Die Funk- 
tionen, die mit Hilfe des Bausteins zu realisieren sind 
— Filtern, Modulieren, Demodulieren, Begrenzen, Mi- 
schen usw. —, erfordern normalerweise zahlreiche 
passive Bauelemente, Operationsverstärker und an- 
dere diskrete, analoge Elemente. Mit geringem exter- 
nen Aufwand kann der 2920 als Modem, Entzerrer, 
Tonquelle oder Tonempfänger beschaltet werden. Er 
kann auch zur Prozeßsteuerung und als (Servo-)Mo- 
tortreiber eingesetzt werden. 

Die Programmierbarkeit ist der wesentliche Vorzug 
des Echtzeit-Signalprozessors: Seine endgültige 
Funktion hängt vom Inhalt des EPROMs ab, das sich 
mit auf dem Chip befindet. 


1 Voraussetzungen für den Befehlssatz 


Der Prozessor unterscheidet sich erheblich von 
konventionellen uPs. Es gibt aber Ähnlichkeiten: Er 
verarbeitet digitale Daten eines konventionellen AD- 
Umsetzers (am Eingang) und sendet das Ergebnis zu 
einem DA-Umsetzer (am Ausgang). Der Unterschied 
liegt in der Art der Berechnung, die für die Signalver- 
arbeitung erforderlich ist. Außerdem muß der Prozes- 
sor bei jedem Wert vom AD-Umsetzer sein gesamtes 
Programm durchlaufen, da die Funktion auf einem 
Echtzeit-Abtastsystem basiert. Die Programmausfüh- 
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nungen schnell genug ausführen. Inzwischen bietet 
ein NMOS-Baustein beim Entwurf von Analogsyste- 
men dieselben Möglichkeiten: der Echtzeit-Signalpro- 
zessor, der hier am Beispiel des Typs 2920 vorgestellt 
wird. 


rungszeit bestimmt somit die Abtastrate, und das hat 
Beschränkungen in mancher Hinsicht zur Folge. 

Im allgemeinen ist eine feste Abtastrate notwendig, 
da die Charakteristik eines jeden simulierten Analog- 
systems stark von ihr beeinflußt wird. In der Tat kön- 
nen schon kleine Abweichungen ein nicht zu vernach- 
lässigendes Rauschen bewirken. Deshalb muß die Zeit 
für einen Programmdurchlauf notgedrungen immer 
dieselbe sein. Um das zu erreichen, wird jeder Befehl 
in der gleichen Zeit ausgeführt. Außerdem enthält der 
Befehlssatz aus diesem Grund keine bedingten 
Sprünge (ausgenommen den Sprung vom Programm- 





Bild 1. Komplette Analog-Untersysteme können mit dem Echtzeit- 
Signalprozessor 2920 (Intel) programmiert werden. Auf dem gut 
30 mm? großen Chip sind eine spezielle CPU sowie AD- und DA- 
Umsetzer untergebracht, die von einem EPROM gesteuert werden 
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ende zurück zum Anfang). Bedingte Operatoren je- 
doch erlauben logische Entscheidungen, ohne die 
Ausführungszeit zu beeinflussen. 

Obwohl diese Techniken das Programmieren in 
gewisser Hinsicht beschränken, sorgen sie für eine fe- 
ste Abtastrate, die auf einem Programmdurchlauf ba- 
siert. Man kann diese Abtastrate somit einfach be- 
rechnen, indem man die Befehlsausführungsrate 
durch die Anzahl der Programmschritte teilt. 

Für die digitale Signalverarbeitung nach dem Ab- 
tastverfahren muß der Mikroprozessor außerordent- 
lich schnell sein, wenn eine annehmbare Bandbreite 
erzielt werden soll. Das Nyquist-Kriterium besagt: Ein 
kontinuierliches System kann mit dem Abtastverfah- 
ren exakt simuliert werden, wenn die Abtastrate min- 
destens doppelt so hoch ist wie die höchste vorkom- 
mende Frequenz. In der Praxis sind aber meistens 
noch höhere Abtastraten erforderlich. Überdies muß 
der Prozessor extrem schnell rechnen, da alle Opera- 
tionen zur Erzeugung eines einzigen Ausgangswertes 
für jeden Abtastwert auszuführen sind. Schon eine 
Bandbreite von 10 kHz würde beispielsweise eine Ab- 
tastrate von 20 kHz bedingen, was einem kompletten 
Programmdurchlauf alle 50 us entspricht. Nimmt man 
an, daß 100 Befehle ausgeführt werden, dann verblei- 
ben pro Befehl noch 500 ns - eine Zeit, die nur wenige 
Minicomputer schaffen. Um so erstaunlicher ist es, 
daß sie ein Baustein von gut 30 mm? Chipfläche 
(Bild 1) schafft, der noch dazu mit einem Standard- 
N-Kanal-MOS-Prozeß hergestellt wird. 


Befehlsrate 


Programmspeicher 


2 Funktionseinheiten 

Wie ausBild 2 hervorgeht, teilt sich der 2920 in drei 
Funktionseinheiten auf: Programmspeicher, Arithme- 
tikteil und Analogteil. Der EPROM-Programmspei- 
cher steuert die beiden übrigen Funktionsblöcke. 

Vier Analogeingänge und acht Analogausgänge hat 
der Baustein. Ein Multiplexer sorgt dafür, daß nur ein 
Sample-and-hold-Verstärker nötig ist. Die AD-Umiset- 
zung wird durch sukzessive Approximation mit Hilfe 
des Ausgangs-DA-Umsetzers (arbeitet mit Wider- 
standsnetzwerk) durchgeführt. Ein Demultiplexer lie- 
fert die Signale für die acht gepufferten Ausgänge, von 
denen jeder seinen eigenen Sample-and-Hold-Ver- 
stärker hat. Das Datenregister stellt die Verbindung 
zum digitalen Teil des Chips dar. 

Der Mikroprozessor im 2920 enthält ein Scratch- 
pad-RAM mit zwei Ports, einen Binärteiler und eine 
arithmetisch/logische Einheit (ALU). Das Datenregi- 
ster, das vom Analogteil benutzt wird, ist in Wirklich- 
keit ebenfalls Teil des RAMs, so daß es der Prozessor 
als adressierbaren Speicher ansieht. 

Obwohl AD- und DA-Umsetzer auf 9 Bit genau sind, 
arbeiten sie intern mit 25 Bit. Um insgesamt einen ge- 
ringen Rundungsfehler zu erreichen, ist nämlich für 
Zwischenrechnungen eine wesentlich höhere Genau- 
igkeit erforderlich, als für das Endergebnis verlangt 
wird. Sollte ein Überlauf auftreten, geht der Prozessor 
„in die Sättigung“. Mit anderen Worten, er ersetzt das 
Ergebnis sofort durch den größten speicherbaren 
Wert. 


Programmier- 
© Spannungs- 
eingang 


Bild 2. Der Baustein wird mit 24- 
Bit-Befehlen programmiert. Da- 
von können bis zu 192 in einem 
EPROM abgelegt werden. Im 
Arithmetikteil werden die Be- 
fehle nach dem Pipeline-Verfah- 
ren geholt, damit ein besserer 
Durchsatz erzielt wird. Die 
Schnittstelle zum Analogteil 
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Jeder der 40 RAM-Speicherplätze ist 25 Bit „breit“. 
\dressiert werden sie mit einem 6-Bit-Wort; die ver- 
jleibenden 24 Adressen wählen vorbestimmte Kon- 
itanten und das Datenregister aus. Um den Durchsatz 
ru erhöhen, wurde das RAM mit Zweifach-Port-Zellen 
ersehen, die über jeden der Ports adressiert werden 
<önnen. 

Das EPROM ist in der Lage, bis zu 192 Befehle mit je 
»4 Bit zu speichern. Das Befehlsformat besteht aus 
ünf aufeinanderfolgenden Feldern: Digital-Operator, 
Juelladresse, Zieladresse. Shift-Maß (extent of shift- 
ng) und Analog-Operator. Ein derart langes Wort ist 
vergleichbar mit einem Mikroprogramm-Wort in 
Somputern mit Steuerspeicher — es führt mehrere 
Iperationen auf einmal aus. In diesem Fall handelt es 
sich um Speicher-zu-Speicher-Operationen. 

Bei maximaler Geschwindigkeit führt der Signal- 


prozessor jeden Befehl in 400 ns aus. Das längste Pro- 
gramm (192 Befehle) dauert dann 76,8 us, was einer 
Abtastrate von etwa 13 kHz entspricht. Nach Nyquist 
ist die Bandbreite dieses Systems 6,5 kHz. Kürzere 
Programme ermöglichen natürlich höhere Bandbrei- 
ten. Bestimmte Techniken - z. B. das mehrfache Able- 
gen eines Programms im Stack — können die Band- 
breite ebenfalls erhöhen. 

Um die Geschwindigkeit so hoch wie möglich zu 
treiben, wird im Baustein das sogenannte Pipeline- 
Verfahren angewendet. Dabei werden jeweils vier Be- 
fehle auf einmal vom EPROM geholt, und die Hol- 
Phase für die nächsten vier überlappt sich mit der 
Hol-Phase der vorhergehenden vier. Überdies führen 
alle arithmetischen Befehle das sogenannte ‚„Carry- 
lookahead‘“ über die gesamte Breite des Akkumulators 
durch. 


je 


Simulation mit Abtastsystemen 


Die Funktion des Signalprozessors basiert auf 
der Abtasttheorie, die besagt, daß eine stetige 
Funktion von einer Folge periodischer Abtast- 
werte exakt dargestellt wird, vorausgesetzt die 
Abtastrate ist hoch genug. Aber gerade diese For- 
derung — und der enorme Rechenaufwand zwi- 
schen zwei Werten — haben die digitale Verarbei- 
tung von Analogsignalen auf leistungsfähige grö- 
Bere Computer beschränkt. Der 2920 löst das Re- 
chenproblem mit Hilfe der Pipeline-Struktur und 
einem ausgefeilten Multiplikations-Algorithmus, 
der einen wesentlich geringeren Schaltungsauf- 
wand und weniger Schritte benötigt als der her- 
kömmliche Shift/Addier-Algorithmus. 


Das unten dargestellte aktive Filter (A) hat ein 
konjugiert-komplexes Polpaar. Seine charakteri- 
stischen Werte (Übertragungsfunktion, Verstär- 
kung, Lage der Pole) sind durch die Gleichungen 
gegeben. Es kann durch das Abtastsystem B simu- 
liert werden. Die Kreise mit einem x stellen Mul- 
tiplizierer dar, die mit dem Summenzeichen sind 
Addierer. Durch die Blöcke mit z"' werden Zeit- 
verzögerungen von einer Abtastperiode wieder- 
gegeben. Die Koeffizienten ß, und ß; steuern die 
Frequenzparameter des Filters, während mit G die 
Verstärkung eingestellt wird. 


Die Gleichungen in B ergeben die simulierten 
charakteristischen Werte. Obwohl es sich um eine 
Simulation handelt, ergeben sich dieselben Er- 
gebnisse wie in A, wenn unendlich hohe Fre- 
quenzen zugrunde gelegt werden: Für ß, = 2 e' 
ergibt sich 2, wenn die Abtastperiode T gegen Null 
geht; und ß, = —e 2aT wird -1 für T gegen Null. 


Für endliche Frequenzen allerdings können 


sich erhebliche Abweichungen der Filter-Charak- 
teristik ergeben, selbst wenn die Koeffizienten nur 
geringe Fehler aufweisen. Alle Berechnungen 
müssen deshalb mit hoher Genauigkeit durchge- 
führt werden. 

Ein Computer kann das System in B mit folgen- 
den drei Gleichungen simulieren: 


Ya = Yyı 
Yu yo 
yv=-ßı Yyıtß'y»+tG'x 


Den Variablen links vom Gleichheitszeichen 
werden die Werte auf der rechten Seite zugewie- 
sen. An jeder Multiplikation sind eine Variable 
und ein Wert beteiligt, der durch den Filterent- 
wurf festgelegt ist. 

Im 2920 sind Befehle vorhanden, die zwei Va- 
riablen addieren oder subtrahieren, wobei die er- 
ste mit einer Potenz von 2 skaliert wird. Ein ein- 
zelner Befehl könnte somit folgende Formen an- 
nehmen: 
x= y [2 
x=x+y(2) 
x=x-yl2) 


| 


Der Nutzen dieser Skalierung wird bald klar 
werden. Die Koeffizienten können nämlich durch 
Summen oder Differenzen von Zweierpotenzen 
ausgedrückt werden, wie in den folgenden Bei- 
spielen: 

Bı = 1,7656 = 212 7 2 27” 
ß2 = -0,99414 = - 2° + 27-2”? 
G = 0,00293 = 2? — 270 

Der Signalprozessor führt diese Rechnungen 
schnell und mit wenig Schaltungsaufwand aus. 
Die Filterstufe von B wird durch die 2920-Befehle 
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Die ALU ist für folgende grundlegenden Operatio- 
nen ausgelegt: Datentransport, Addition, Subtraktion, 
Absolutwert und verschiedene logische Operationen. 
Jeder elementare Maschinenbefehl holt zwei Operan- 
den vom Scratchpad-RAM, schickt den ersten durch 
den Binärteiler, führt die gewünschte arithmetische 
Funktion aus und ersetzt den zweiten Operanden 
durch das Ergebnis. 

Schlüsselelemente für die hohe Geschwindigkeit 
und die hohe Genauigkeit der Arithmetik ist der Bi- 
närteiler. Im Gegensatz zu den herkömmlichen 
Shift/Addier-Multiplizierern, die einen Zyklus pro Bit 
benötigen, führt der 2920 Sequenzen von Additionen 
und Subtraktionen mit Werten durch, die vorher ent- 
sprechend geteilt worden sind (siehe Kasten S. 39). Bei 
der Multiplikation von Variablen mit Konstanten wird 
dadurch die Zahl der Zyklen auf etwa ein Drittel redu- 


in D unmittelbar realisiert. Ein Links-Shift um 
eine Stelle ist äquivalent zu einer Multiplikation 
mit 2', ein Rechts-Shift um sechs Stellen ent- 
spricht der Multiplikation mit 2”° usw. LDA, ADD 
und SUB repräsentieren Operations-Codes für 
Lade-, Subtrahier- und Addierbefehl. 
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ziert (da die meisten Filter in Analoganwendungen 
nicht variabel sind, wird gewöhnlich mit Konstanten 
multipliziert). 

Einige der grundlegenden ALU-Operationen wer- 
den abhängig von einer Bedingung ausgeführt, sie be- 
nutzen bestimmte Bits des Datenregisters, die norma- 
lerweise der AD- und DA-Umsetzung vorbehalten 
sind. Multiplikation und Division von zwei Variablen 
werden beispielsweise durch bedingte Addition und 
Subtraktion möglich. Schließlich sind mit bedingten 
Operationen unstetige Übertragungsfunktionen reali- 
sierbar. 


AD- und DA-Umsetzer haben eine Genauigkeit von 
9 Bit, wenn man das zusätzliche Vorzeichenbit mit- 
rechnet. Bild 3 zeigt die Umschaltlogik am Eingang, 
die dafür sorgt, daß ein korrektes Vorzeichenbit hin- 


Diese Methode erlaubt viel schnellere Multipli- 
kationen mit Konstanten als das konventionelle 
Shift/Addier-Verfahren. Das wirkt sich in dieser 
Anwendung besonders günstig aus, weil solche 
Multiplikationen in Digitalfilter-Berechnungen 
am häufigsten vorkommen. 











' -2al 
° ° stperiode 
baus u, b 1 a=R/2l 
Vein SE+SR/L+TILE Ne. 
A = bleıchspannungsverstarkung b= VI/LE-REIALE 
Max Verst =4A/R VL/C" ß} bleichspannungsverstärker = 6/(1-ß1 - 7) 
be f= 172mm VIYLC-R2IGL? Max Verst = G/(1- Bol VB ß2) | 
Pole bei -RI?L +) Vırıc 242 bei f = 1/21 cos-I(ß} (1-B2)/4 7) 
6- [ D 
t Befehlsfolge fur Filter mit 2 Polstellen 
5- geRrr2 Verl 


Verstarkung 








Normierte Frequenz 


f/2rV LC 


—- 








— nn —— 

| __| aqu zufi=Yo 
| 
ee En | 
6] Yo=Pr-Mausgefut | 
FR  —___— 


ao I x | 10 Jrecis® 
sa | x | Yo [reits 


ve 
a 














Yo=P1 Y1+ 2 Y2 + 6x ausgeführt 





12 





Signalverarbeitung 








Eingangsauswahl 


Eingang [} 
(einer von 
vier ) 


negatıv positiv 














DA -Umsetzer - 
Spannung = DV 














Bild 3. Mit einem zusätzlichen Vorzeichenbit zu den vorhandenen 8 
Bit wird die Genauigkeit auf 9 Bit gesteigert. Der Baustein hat am 
Eingang eine Umschaltlogik, die dafür sorgt, daß ein Signal korrek- 
ter Polarität vom Sample-and-Hold-Kondensator zum Komparator 
der AD-Logik geliefert wird 


zugefügt wird, während nur eine einzige (positive) Re- 
ferenzspannung benötigt wird. 


Der DA-Umsetzer ist um eine Schaltermatrix und 
eine Widerstandskette herum aufgebaut, die in sich 
mehrfach „gefaltet“ ist (Bild 4). Diese Anordnung ver- 
ringert die Empfindlichkeit gegenüber Temperatur- 
schwankungen und Unregelmäßigkeiten in der 
Chip-Oberfläche. Zusammen mit den Tatsachen, daß 
der Baustein quarzgesteuert ist, daß eine externe Refe- 
renzspannung benutzt wird und daß alle Berechnun- 
gen digital ausgeführt werden, ergibt das analoge Un- 
tersysteme, die wesentlich stabiler sind als ihre voll- 
analogen Gegenstücke. 


Der Signalprozessor ist in der Lage, Filter mit bis zu 
40 Polstellen oder 20 konjugiert-komplexen Polpaa- 
ren zu ersetzen. Das reicht für viele komplexe Analog- 
systeme aus, z.B. für „Dual-tone-Multifrequency‘“- 
(DTMF) oder ‚‚Touch-tone‘“-Empfänger, wie sie in Te- 
lefonen verwendet werden. 


3 Anwendungsbeispiel 


Die Möglichkeiten des Bausteins werden ein- 
drucksvoll demonstriert von einem Tonfrequenz-Ana- 
lysator, der das Übertragungsverhalten des Prüflings 
auf dem Oszilloskop anzeigt (Bild 5). Er liefert ein Ver- 
tikal- und ein Horizontalsignal, die direkt zum Oszil- 
loskop geführt werden, und mischt das Eingangssi- 
gnal mit dem Ausgang eines Wobbel-Oszillators. 











Referenz 
spannung 


Ausgang 


Bild 4. Der DA-Umsetzer ist mit einem Widerstandsnetzwerk 
aufgebaut, das durch mehrfaches Falten quadratisch angeordnet 
ist. Dadurch vermindern sich die Einflüsse von Temperatur und 
unterschiedlicher Oberflächenbeschaffenheit 








Das zu analysierende Eingangssignal wird zuerst 
mit einem einfachen externen Netzwerk gefiltert, das 
hochfrequente Anteile unterdrückt. Im 2920 passiert 
es dann zunächst das Äquivalent eines Tiefpaßfilters 
zur weiteren Bandbegrenzung. Dann wird es — vor 
dem Mischen — durch automatische Verstärkungsre- 
gelung moduliert. Man erreicht das mit einem einfa- 
chen Divisions-Algorithmus, dessen Divisor gewon- 








Aut 
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Bild 5. Mit dem 
Baustein läßt sich 
z.B. ein kompletter 
Spektrumanalysa- 


tor für Tonfrequen- 
zen realisieren 


Kurvenform- 
Modifizierung 


Sagezahn - 
oszıllator 





Vertikal- 
Vollweg-Gleich- ausgang 
rıchter 


Schmalband- 
filter 
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Tabelle. Speicherplatzbedarf für Spektrumanalysator 
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nen wird, indem man den Absolutwert des Signals 
durch einen Tiefpaß schickt (um den Mittelwert zu 
bekommen). 


Ein zweiter Programmteil simuliert ein Öszillator- 
paar, von dem der eine die Spektrum-Abtastrate und 
damit die Wobbelfrequenz (Horizontaleingang des 
Oszilloskops) bestimmt, während der zweite einen 
VCO darstellt, der vom ersten gesteuert wird. Die 
VCO-Frequenz, die den interessierenden Bereich 
überstreicht, wird schließlich mit dem Eingangssi- 
gnal gemischt. 

Beide Oszillatoren erzeugen lineare Sägezähne. Da 
das entsprechende Programm aber nur diskrete Werte 
für die simulierten Oszillatoren berechnet, könnten 
geringe Abweichungen zu Problemen führen, wenn 
die Harmonischen des Sägezahns mit der Abtastfre- 
quenz ungewollte Mischprodukte bilden. Aus diesem 
Grund wird das Ausgangssignal des zweiten Oszilla- 
tors einer nichtlinearen Transformation unterzogen, 
die es annähernd sinusförmig macht. Der Prozessor 
führt diese Transformation mit einer stückweise linea- 
ren Approximation durch, die Absolutwert-Funktio- 
nen mit den Effekten der erwähnten Überlauf-Sätti- 
gung der ALU kombiniert. Der erste Oszillator benö- 
tigt eine derartige Transformation nicht, da er so nied- 
rige Frequenzen erzeugt, daß Mischprodukte mit der 
Abtastfrequenz auf jeden Fall unbedeutend sind. 

Der Mischer wird mit einer Multiplikationsroutine 
simuliert, die das Ausgangssignal des zweiten Oszil- 
lators mit dem gefilterten und amplitudengeregelten 
Nutzsignal mischt. An seinem Ausgang erscheinen 
Summen- und Differenzfrequenz. Da nur das Sum- 
mensignal von Interesse ist, wird es mit einem 
Schmalbandfilter isoliert. Seine Amplitude entspricht 
genau der des Eingangssignals bei einer Frequenz, die 
von der Differenz zwischen Mittenfrequenz des 
Schmalbandfilters und VCO-Frequenz bestimmt wird. 
Der Absolutwert-Algorithmus des Prozessors führt 
eine Vollweggleichrichtung nach dem Schmalband- 
filter durch. Danach folgt noch ein Tiefpaß, und das 
Signal wird über den Vertikalausgang ausgegeben. Da 
Horizontal- und Vertikalausgang des Bausteins nach 
Sample-and-Hold-Schaltungen liegen, ist es empfeh- 


lenswert, daß man zur Glättung noch einfache Tief- 
pässe einsetzt. 

Die im Spektrumanalysator verwendeten Filter ha- 
ben einfache oder konjugiert-komplexe Polstellen. 
Filter mit mehreren Polstellen werden einfach aus 
diesen Grundelementen zusammengesetzt. Der Si- 
gnalprozessor kann auch Filter mit endlicher Impuls- 
antwort simulieren, und er kann Nullstellen entweder 
unabhängig oder zwischen Polstellen einfügen. 

Der Analysator überstreicht einen Frequenzbereich 
von 300 Hz...3 kHz zehnmal pro Sekunde mit einer 
Auflösung von etwa 100 Hz. Das Schmalbandfilter hat 
eine Mittenfrequenz von 4,5 kHz und die Abtastrate 
beträgt ungefähr 13 kHz. 


In der Tabelle ist der jeweils benötigte Platzbedarf 
im EPROM und im RAM für die verschiedenen Funk- 
tionsblöcke angegeben. Die Angaben beziehen sich 
auf die beschriebenen Parameter und können für an- 
dere Werte abweichen. Da das Programm nicht den 
gesamten Speicher belegt, könnten mehr Funktionen 
implementiert werden, oder die Abtastrate könnte auf 
20 kHz erhöht werden. Eine weitere Möglichkeit ist, 
die Abtast- und Filter-Algorithmen für das Eingangs- 
signal mehrfach zu programmieren, um die effektive 
Abtastrate zu erhöhen. Damit würde ein einfacheres 
externes Filter ausreichen. 


4 Unterstützung 


Die Produktion des 2920 soll Ende des Jahres anlau- 
fen. Da es sich um einen Mikroprozessor mit einigen 
Zusätzen handelt, muß er zumindest ebenso gut un- 
terstützt werden wie gegenwärtige uPs. Intel plant ei- 
nen Assembler und einen Simulator, die beide (resi- 
dent) auf dem Entwicklungssystem Intellec laufen. Da 
die Arithmetik im Zusammenhang mit dem Entwurf 
und der Optimierung von digitalen Filtern außeror- 
dentlich komplex ist, will man auch ein Software-Pa- 
ket herausbringen, das diese Tätigkeiten unterstützt 
und den Assembler-Code für den 2920 generiert. Diese 
Hilfsmittel werden den Entwickler von Analogsyste- 
men so unterstützen, wie es der uP-Entwickler inzwi- 
schen gewöhnt ist. 


Autorisierte Übersetzung und genehmigter Nachdruck aus Electronics Bd. 
52, H. 5, copyright McGraw-Hill, Inc. 1979. Aus dem Englischen übertragen 
von Rudolf Hofer. 
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Bild 6. Spektrum 
eines einfachen Fil- 
ters 2. Ordnung mit 
400 Hz Mittenfre- 
quenz: Das ent- 
sprechende Pro- 
gramm belegt 10 
Worte im EPROM — 
182 Worte bleiben 
frei für weitere 
Anwendungen 
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David Quong, Robert Perlman 


FFT-Adressier-IC zur Transformation 
von über 65 000 Punkten 


Schnelle Fourier-Transformation (FFT) zählt zu den 
nützlichsten Algorithmen im Bereich der digitalen 
Signalverarbeitung. Sie stellt ein schnelles und beque- 
mes Mittel zur Berechnung des Frequenzspektrums 
eines Signals dar. In Kombination mit anderen Opera- 
tionen lassen sich außerdem schnelle Korrelationen 
und Konvolutionen ausführen. FFT findet man in 
Anwendungen wie z.B. Radar, Echolot, Bildverarbei- 


Das Problem der Adreßerzeugung 


Eines der schwierigsten Probleme, das beim Entwurf 
von FFT-Hardware zu lösen ist, ist die Adressierung der 
Daten- und Koeffizientenspeicher. Ein kurzer Blick auf 





A=a,+ja} A'=a;+ja, 


B=b.+Jbı gan B'=b; +jb" 


@) e ° =coso-jsino 


Bild 1. Eine Wurzel- 
2-DIT-Butterfly- 
Operation besteht 
aus drei komplexen 
Operationen: einer 
Addition, einer Sub- 
traktion und einer 
Multiplikation. Die 
komplexen Ein- 
gangsdaten der 
Punkte A und B er- 
zeugen komplexe 
Ausgangspunkte A’ 
und B’ (a). Diese 
komplexen Opera- 
tionen entsprechen 
vier Multiplikatio- 
nen, drei Additionen 
und drei Subtraktio- 
nen mit reellen Wer- 
ten (b) 
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tung und Spektralanalyse. Der programmierbare FFT- 
Adreßsequenzer Am29540 vereinfacht den Hardware- 
Aufbau für ein FFT-System, indem er alle Daten und 
Koeffizientenadressen, die zur Ausführung der FFT 
erforderlich sind, erzeugt. Aufgrund der Programmier- 
barkeit des Bauelementes lassen sich die Adressen 
für die Fourier-Transformationen im Bereich von 
2...65 536 Punkten erzeugen. 


die Struktur von FFT-Hardware zeigt, warum das so ist: 

Herzstück des FFT-Algorithmus ist die Butterfly-Ope- 
ration, die ihren Namen aufgrund ihrer schematischen 
Darstellung trägt. Bild 1a zeigt die Butterfly-Operation 
für eine Wurzel-2-DIT-FFT (Decimation-in-Time). Im 
„Schmetterling“ gibt es die zwei komplexen Daten- 
punkte A und B und einen komplexen Koeffizienten W*, 
die zur Berechnung von zwei neuen Datenpunkten A’ 
und B’ Verwendung finden. Der Koeffizient ist ein kom- 
plexer Exponentialwert mit der Form 


e® = c0s® - j sin®. 


Jede Butterfly-Operation erfordert eine komplexe Multi- 
plikation, eine komplexe Addition und eine komplexe 
Subtraktion oder vier reale Multiplikationen, drei reale 
Additionen und drei reale Subtraktionen, wie das in 
Bild 1b dargestellt ist. 

Eine FFT wird ausgeführt, indem man die Butterfly- 
Operationen in einer bestimmten Ordnung miteinander 
verkettet. Die Butterflies sind in Kolumnen oder Stufen 
angeordnet; eine N-Punkt-Wurzel-2-FFT besteht aus 
log;N-Stufen, wobei jede N/2 Butterflies umfaßt, so daß 
sich insgesamt (N/2) log,N-Butterflies ergeben. Bild 2 
zeigt die Struktur einer Wurzel-2-DIT-FFT mit 16 Punk- 
ten, die vier Stufen mit acht Butterflies, also insgesamt 
32 Butterflies umfaßt. Jeder Kreis im Diagramm stellt 
eine einzelne Wurzel-2-Butterfly-Operation dar. Bei der 
Bruchzahl, die jeder Butterfly zugeordnet ist, handelt es 
sich um eine Kurzbezeichnung für den Wert des Koeffi- 
zienten, der zur Ausführung dieser Butterfly-Operation 
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benötigt wird: Wenn der Wert des Bruches „k‘“ annimmt, 
beträgt der entsprechende Koeffizientenwert e'**, Die 
Speicherplätze, in denen die Daten abgelegt sind, wer- 
den blockweise zusammengefaßt; im Falle der 16-Punkt- 
FFT müssen 16 aufeinanderfolgende Speicherplätze für 
die 16 komplexen Datenpunkte zugewiesen werden. 
Zum Ausführen jeder FFT-Butterfly-Operation werden 
die Eingabepunkte vom Datenspeicher geholt und die 
erforderlichen Operationen mit den entsprechenden 
Koeffizienten ausgeführt. Anschließend gelangen die 
Resultate zurück in den Datenspeicher. Die Pfeile in 
Bild 2 zeigen die Reihenfolge, in der die Butterflies 
typischerweise abgearbeitet werden. Bei dem gezeigten 
Algorithmus handelt es sich um eine In-Place-Opera- 
tion, was bedeutet, daß die von jeder Butterfly-Opera- 
tion erzeugten Punkte am gleichen Speicherplatz wie 
die Eingabe-Datenpunkte abgelegt werden. 

Der Zugriff auf die Daten erfolgt nicht in der Reihen- 
folge der Speicherplätze. So muß für das Beispiel der 
FFT in Bild 2 auf die Daten in der Reihenfolge 0, 8, 1, 9, 
.., 7, 15 für die erste Stufe zugegriffen werden. Bei der 
zweiten und den folgenden Stufen ist die Adressierung 
noch aufwendiger. So wird die zweite Stufe z. B. durch 
Zugriff auf die Datenadressen 0, 4, 1, 5, 2, 6, 3, 7 für die 
erste Gruppe von vier Butterflies ausgeführt; der Zugriff 
erfolgt dann für die zweite Gruppe der Butterflies auf die 
Adressen 8, 12, 19, 13, 10, 14, 11, 15. Auch die Butter- 
flies der dritten und vierten Stufen werden in Gruppen 
adressiert. Für die FFT, die in Bild 2 dargestellt ist, 
besitzt die Stufe m 2”! Gruppen von N/2" Butterflies 
mit einem Gruppenumfang von N/2”"!, 

Die Adressierung der Daten stellt allerdings nur eine 
Hälfte des Problems dar: Auf Koeffizienten muß eben- 
falls zugegriffen werden. Für die erste Stufe der FFT in 
Bild 2 benötigt man lediglich sin(0) und cos(0). Stufe 2 
erfordert allerdings die Winkel 0 und n/2; Stufe 3 
benutzt die Winkel 0, /2, /4, 3 n/4; Stufe 4 erfordert die 
Winkel 0, n/2, n/4, 3 n/4, sı/8, 5 n/8, 3 n/8 und 7 n/8. Im 
allgemeinen ist die Koeffizienten-Adreßsequenz für die 
Stufen m dieses FFT-Typs 0, BR [1] /N, BR [2] /N...BR 
2" — 1] u/N, wobei BR [ ] eine Funktion ist, die die 
Reihenfolge der Bits in einem Binärwort umkehrt. Für 
jede Gruppe Butterflies muß auf einen neuen Koeffizien- 
ten zugegriffen werden. 


Häufig verwendete Lösungen 


Unterschiedliche FFT-Typen erfordern verschiedene 
Arten der Adressierung, allerdings zeigt das Beispiel 
einen repräsentativen Typ des sequentiellen Adreßzu- 
griffs. Entwickler von FFT-Systemen haben unterschied- 
liche Techniken herangezogen, um diese FFT-Daten- 
und Koeffizienten-Adressen zu erzeugen, wobei ihnen 
allerdings unterschiedlicher Erfolg beschieden war. 

Eine der üblichen Lösungen des Adressierungspro- 
blems ist, Daten- und Koeffizienten-Adressen in PROMs 
abzulegen und diese sequentiell mit einem Zähler zu 
adressieren. Diese Lösung hat allerdings mehrere 


schwere Nachteile: Erstens wird die Anzahl der Adres- 
sen unverhältnismäßig groß, wenn der Umfang der FFT 
zunimmt. Eine Wurzel-2-FFT mit 4096 Punkten und 
komplexen Eingangswerten muß beispielsweise 24 576 
Butterflies adressieren, die jeweils zwei Datenadressen 
und eine Koeffizientenadresse erfordern, so daß sich 
insgesamt 73 728 Adressen ergeben. Während sich die 
Anzahl der Adressen durch einen konstanten Geome- 
trie-FFT-Algorithmus, der gleiche Datenadressen für 
jede Stufe verwendet, reduzieren lassen, hat dieser 
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Bild 2. Diese 16-Punkte-Wurzel-2-DIT-FFT enthält 32 Butter- 
flies. Die Pfeile zeigen die Reihenfolge, in der die Butterflies 
typischerweise abgearbeitet werden 











Algorithmus den Nachteil, daß er sich nicht für das In- 
Place-Verfahren eignet, so daß im Endeffekt die dop- 
pelte Datenspeicherkapazität erforderlich ist. Der zweite 
Nachteil der PROM-Lösung ist, daß wenn ein einziges 
System verschiedene Größen oder Typen der FFT aus- 
führen muß, jeweils eine andere Adreßtabelle für jede 
FFT erforderlich ist. Dies ist oft der Fall bei program- 
mierbaren digitalen Signalprozessoren. 

Eine weitere häufig verwendete Methode ist die 
Lösung des Adressierungsproblems mit umfangreichen 
Systemen aus MSI- und SSI-Schaltungen. Diese Lösung 
läßt sich relativ einfach implementieren, führt aber in 
der Regel zu einer Schaltung, die viel Platinenfläche 
einnimmt, Schwierigkeiten bei der Steuerung verur- 
sacht und nicht einfach fehlerfrei zu machen ist. Eine 
Schaltung, die die Adressierfunktion für eine FFT mit 
4096 Punkten vornimmt, kann aus 10...20 MSI- und SSI- 
Chips bestehen. 

Die dritte Möglichkeit ist die Berechnung der erforder- 
lichen Adressen mit Hilfe von Software, eine Methode, 
die allerdings in vielen Fällen zu langsam für Echtzeit- 
Anwendungen ist. 
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Adreß-Sequenzer Am29540 


Der FFT-Adreß-Sequenzer Am29540 übernimmt die 
Adressierung für eine Anzahl von FFT-Algorithmen. 
Das Bauelement läßt sich in drei Abschnitte unterteilen: 
Butterfly-Zähler, Daten-Adreßgenerator und Koeffizien- 
ten-Adreßgenerator (Bild 3). 

Der Butterfly-Zähler besteht in Wirklichkeit aus zwei 
Zählern: einer für Spalten und einer für Zeilen. Der 
Spaltenzähler zeigt auf die derzeit bearbeitete FFT-Stufe 
oder auch Spalte, während der Zeilenzähler auf die 
Butterfly zeigt, die derzeit innerhalb der Stufe ausge- 
führt wird. Beide Zähler sind programmierbar und las- 
sen sich so initialisieren, daß sie Transformationen ver- 
schiedener Länge ausführen, indem sie den entspre- 
chenden 4-Bit-Transformationslängen-Code in einem 
Zwischenspeicher auf dem Chip ablegen, bevor die 
Transformation beginnt. Zur Eingabe wird dieser Code 
an die Eingangsleitungen TLO...3 gelegt und mit den 
Signalen TSEL und TSRB in den Zwischenspeicher 
übernommen. 

Der Butterfly-Zähler führt einen von vier Befehlen 
aus: Reset/Load, Zählen und Halten. Diese Befehle wer- 
den mit Hilfe der Steuerleitungen IO...1 ausgewählt und 
mit der ansteigenden Flanke des Takteingangs CP ausge- 
führt. Eine FFT wird durch Initialisierung des Butterfly- 
Zählers mit einem Reset oder einer Reset/Load-Instruk- 
tion begonnen. Die Zähl- und Halte-Instruktionen die- 
nen dazu, den Zähler auf die nächste Butterfly-Opera- 
tion zu schalten oder diesen auf der derzeitigen Opera- 
tion zu halten. 


Der Butterfly-Zähler erzeugt vier Flags, mit deren 
Hilfe die FFT-Sequenz ausgeführt wird. „IT COMP“ 
(Iteration Complete) zeigt die letzte Butterfly in einer 
Stufe oder Spalte an; die letzte Butterfly in einer FFT 
wird durch „FFT COMP“ (FFT Complete) gemeldet. Das 
Flag EVEN/ODD verändert seinen Zustand nach jeder 
Stufe und läßt sich dazu benutzen, die Speicheropera- 
tionen für Non-In-Place-Transformationen zu steuern. 
Das vierte Flag, KNZ/KZ, kommt insbesondere dann zur 
Anwendung, wenn Transformationen mit realen Ein- 
gangsvariablen ausgeführt werden. EVEN/ODD und 
KNZ/KZ werden im Multiplex auf einen einzigen 
Anschluß umgeschaltet. Wenn der Am29540 eine 
Datenadresse für einen Realwert produziert, erscheint 
KNZ/KZ auf dem Stift, für jede andere Adresse EVEN/ 
ODD. Die Daten- und Koeffizienten-Adressengenerato- 
ren erzeugen die Adressen kombinatorisch, wobei sie 
den Stand des Butterfly-Zählers als Eingangssignal neh- 
men. Mit Hilfe des Datenadreßgenerators werden die 
Adressen für die jeweiligen Ein- und Ausgangs-Daten- 
punkte einer Butterfly erzeugt, während der Koeffizien- 
ten-Adreßgenerator Adressen für Koeffizienten und 
Wichtungsfunktionen produziert. Drei Steuersignale - 
PSD, DIT/DIF und RADIX4/2 — konfigurieren die Adreß- 
generatoren für die verschiedenen FFT-Typen. Diese 
Signale sind in einem Latch des Speichers abgelegt, die 
mit Hilfe der Freigabe-Leitungen SEL und STRB gesteu- 
ert werden. Ein Benutzer wählt die gewünschten Ein- 
gangsdaten, Ausgangsdaten oder Koeffizientenadressen 
mit Hilfe der Steuerleitungen AS0...3 aus. Die AS-Werte 
0...7 und 12...15 wählen Datenadressen, die Werte 8...11 
wählen Koeffizientenadres- 
sen. Von AS0...3 wird eine 











oeffizienten 


Adreß- 
Generator 


Generator 


Adreß- Ausgang / 
Offset-Eingang A0...15 





Transformationslänge TLO... 


Adresse gewählt, die auf 
den Adreßleitungen A0...15 
erscheint. Diese Adreßlei- 
tungen lassen sich mit Hilfe 
des Signals OE auf hohe Im- 
pedanz schalten, so daß 
sich mehrere Bausteine zur 
Adreßerzeugung auf dem 
gleichen Bus zusam- 
menschließen lassen. 


‚ ü Adressierung der Daten 
Bild 3. Der Baustein 





Am29540 ist die er- 
ste Ein-Chip-Lö- 
sung für das Pro- 
blem der FFT- 
Adressierung. Ein 
interner Butterfly- 
Zähler steuert die 
Daten- und Koeffi- 
zienten-Adreßgene- 
ratoren, die wieder- 
um die Adressen für 
die unterschiedlich- 
sten FFT-Algorith- 
men erzeugen 
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Wenn Daten adressiert 
werden, kann der Am29540 
nicht weniger als 2!° Adres- 
sen erzeugen; die tatsächli- 
che Anzahl der Datenadres- 
sen für eine bestimmte FFT 
hängt von der Größe und 
dem Typ der Transforma- 
tion ab. Eine Wurzel-2-In- 
Place-FFT mit N Punkten 
und komplexen Eingangs- 
werten muß beispielsweise 
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N komplexe Datenpunkte 
während jeder Stufe der 


Tabelle der Transformationstypen, die vom AM29540 unterstützt werden 














Transformation adressieren. Eingangs- Wur- Dezi- In-Place/ Eingangs- Ausgangs- Richtung 
Wenn N die Zahl 16 an- Datentyp zel mierungs- Non-In-Place Daten Daten der Transformation 
nimmt, wie das bei der FFT Typ 
in Bild 2 der Fall ist, EIS? 2 DIF In-Place Normal Rückwärts Vorwärts/Invers 
sen 16 Speicherplätze 2 DIF In-Place Rückwärts Normal Vorwälrts/Invers 
adressiert werden, so daß 2 DIF Non-In-Place Normal Normal Vorwärts/Invers 
ein großer Teil des verfüg- 2 DIT In-Place Normal Rückwärts Vorwärts/Invers 
: 2 DIT In-Place Rückwärts Normal Vorwärts/Invers 
baren ns Bbereiches unge Komplex 2 DIT Non-In-Place Normal Normal Vorwärts/Invers 
nutzt bleibt. } ß 4 DIF In-Place Normal Rückwärts Vorwärts/Invers 
Der Am29540 bietet zwei 4 DIF In-Place Rückwärts Normal Vorwärts/Invers 
Datenadressierungs-Optio- 4 DIF Non-In-Place Normal Normal Vorwärts/Invers 
nen für denjenigen Benut- 4 DIT In-Place Normal Rückwärts Vorwärts/Invers 
ser, den weniser als &4-K- 4 DIT In-Place Rückwärts Normal Vorwärts/Invers 
: 8 , en 4 DIT Non-In-Place Normal Normal Vorwärts/Invers 
Worte Adreßbereich benö- 
tigt. Die erste Option setzt Reale 2 DIT In-Place Normal Vorwärts 
die nichtbenutzten oberen Werte 2 In-Place Normal Invers 





Adreßbits für die Daten auf 
0; dies erreicht man durch 
Initialisierung des Butter- 
fly-Zählers mit der Reset-Instruktion. Für die 16-Punkte- 
Transformation nach Bild 2 kann man daher die oberen 
12 Adreßleitungen für jede Datenadresse auf O setzen. 
Die andere Option ist die Programmierung der oberen 
Adreßleitungen auf einen Wert, den der Benutzer fest- 
legt, so daß ein Mittel zur Verfügung steht, verschiedene 
Datenblocks in einem großen Speicher zu adressieren. 
Die oberen Datenbits werden programmiert, indem man 
OE auf High-Pegel legt und das gewünschte Bitmuster 
auf die Adreßleitungen A0...15 schaltet. Danach muß 
man die Reset/Load-Instruktion des Butterfly-Zählers 
ausführen. Wenn z.B. das Bitmuster ABCO(,,) zur 
Initialisierung einer komplexen FFT mit 16 Punkten 
benutzt wird, adressiert der Am29540 einen Block von 
16 Datenplätzen, der bei der Adresse ABCO,, beginnt. 
Non-In-Place-Transformationen führen zu zusätzli- 
chen Problemen bei der Adreßerzeugung. Im Unter- 
schied zu In-Place-Transformationen können Non-In- 
Place-Algorithmen die Ausgangsdaten einer Butterfly- 
Operation nicht auf dem gleichen Speicherplatz, der 
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vorher von den Eingangsdaten verwendet wurde, abge- 
legt werden. Mit Hilfe des Am29540 läßt sich dieses 
Problem überwinden, weil dieser Baustein sowohl die 
Ein- als auch die Ausgangs-Datenadressen für diese 
Transformationen erzeugt. Typischerweise werden Non- 
In-Place-Transformationen mit Hilfe von zwei Daten- 
speichern ausgeführt, dabei ist einer die Quelle für die 
Eingangsdaten, der andere der Bestimmungsort für die 
Ausgangsdaten. Wenn eine Stufe ausgeführt ist, ver- 
tauscht man die Rolle dieser Speicher, so daß die Aus- 
gangsdaten einer Stufe die Eingangsdaten der nächsten 
Stufe sind. Das Signal EVEN/ODD ist insbesondere für 
diesen Fall sehr hilfreich, weil es nach jeder Stufe sei- 
nen Zustand verändert. Es läßt sich daher zur Steuerung 
der Richtung des Datenflusses zwischen den beiden 
RAMsSs verwenden. 


Adressierung der Koeffizienten 


Um auf Koeffizienten zuzugreifen, erzeugt der 
Am29540 eine 16-Bit-Adresse, die einem von 2'° Win- 
keln zwischen O0 und 2 ıı entspricht. Für die Koeffizien- 
tenadresse A ist der adressierte Winkel 2 n A/2'®; der 
Winkel n/2 hat beispielsweise die Adresse 4000,s. Die 
Koeffizientenadresse wird an den Look-Up-Speicher 
angelegt, üblicherweise ein PROM, das Sinus- und Cosi- 
nus-Werte für die gewählten Winkel enthält. 

Eine bestimmte FFT benötigt in der Regel nur eine 
gewisse Auswahl aus den 64 K verfügbaren Winkelwer- 
ten. So benötigt eine Wurzel-2-FFT für N Punkte mit 
komplexen Eingangswerten Zugriff auf N/2 Winkel mit 
gleichen Abständen im Bereich von 0...n; das in Bild 2 
gezeigte Beispiel mit einer 16-Punkt-FFT benötigt ledig- 
lich acht verschiedene Winkel. Der Baustein Am29540 
wählt automatisch die erforderlichen Winkel in der 
richtigen Reihenfolge aus und überspringt nichtverwen- 
dete Werte. 
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Das Koeffizienten-Adressierverfahren, das zur 
Anwendung kommt, bietet einen wichtigen Vorteil für 
Systeme, auf denen unterschiedliche Größen von FFT- 
Operationen implementiert sind. Weil der Am29540 
automatisch lediglich auf diejenigen Sinus- und Cosi- 
nus-Werte zugreift, die erforderlich sind, kann eine ein- 
zige Sinus/Cosinus-Tabelle zur Ausführung verschiede- 
ner unterschiedlich großer FFT-Operationen Verwen- 
dung finden. Wenn z.B. der Benutzer eine, Look-Up- 
Tabelle mit 2048 Sinus- und Cosinus-Werten zwischen 
O0 und ı vorsieht, kann die Tabelle zur Ausführung aller 
komplexen Wurzel-2-FFTs mit 4096 oder weniger Punk- 
ten Verwendung finden. 


Allen FFTs gewachsen 


Weil jeder, der eine FFT implementieren muß, einem 
individuellen Spektrum an Entwurfskriterien gegen- 
übersteht, ist es nicht verwunderlich, daß heute eine 
ganze Anzahl von FFT-Algorithmen angewendet wird. 
Die Programmierbarkeit des Am29540 ermöglicht es 
einem Benutzer, Adressen für eine Vielzahl von FFT- 
Typen zu erzeugen. 


Die meisten FFT-Algorithmen, die derzeit verwendet 
werden, sind für komplexe Eingangsdaten ausgelegt. Der 
Typ Am29540 unterstützt 12 verschiedene Typen dieser 
Transformationen (Tabelle). Unter anderem stehen dem 
Entwickler folgende zur Verfügung: 


xt) —— 
xl) —— 


t—— f— 
= 
© ® 
t—o 
; : 
= 
u : 


x'(t) 


t— Bild 4. Die Ausführung der FFT 
kann ein Spektrum wie in a) er- 
zeugen. Nach der ersten Multipli- 
kation mit einer Wichtungsfunk- 
tion b) entsteht eine neue Funk- 

© tion c), die Seitenbänder werden 
dadurch weitgehend reduziert 
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Wurzel-2- oder Wurzel-4-Transformationen — die But- 
terfly-Struktur einer Wurzel-4-Transformation ist 
wesentlich komplizierter als diejenige für Wurzel 2, 
allerdings bietet sie eine etwas größere Berechnungseffi- 
zienz. Jede Wurzel-4-Butterfly erzeugt vier Ausgangsda- 
tenpunkte aus vier Eingangsdatenpunkten und drei 
Koeffizienten, erforderlich sind 12 Multiplikationen 
und 22 Additionen für Realzahlen. Wurzel-4-Transfor- 
mationen werden mit Hilfe des Signals RADIX4/2 ge- 
wählt. 

Decimation in Time (DIT) oder Decimation in Fre- 
quency (DIF) — diese beiden Begriffe beziehen sich au 
zwei FFT-Klassen; die Namen geben eine Aussage, in 
welcher Weise die Werte abgeleitet werden. DIT- und 
DIF-Butterfly-Strukturen unterscheiden sich etwas, 
erfordern allerdings die gleiche Anzahl arithmetischer 
Operationen. Man wählt die gewünschte Transforma- 
tionsart mit Hilfe des Signals DIT/DIF. 

In-Place- oder Non-In-Place-Transformationen — wie 
bereits erwähnt, benötigt Non-In-Place-Transformation 
einen doppelt so großen Datenspeicher im Gegensatz 
zum In-Place-Verfahren. Man könnte also annehmen, 
daß daher In-Place-Transformationen bevorzugt werden. 
Allerdings hat das In-Place-Verfahren einen Nachteil: 
Entweder die Eingangs- oder Ausgangs-Daten der Trans- 
formation müssen in umgekehrter Zählweise der Adres- 
sen im Speicher abgelegt sein, so daß anschließend eine 
Neusortierungs-Operation auszuführen ist. Zwischen 
In-Place- und Non-In-Place-Algorithmen schaltet man 
um, indem entsprechende Werte von AS0...3 die 
gewünschten Adressen wählen. Sollte der Benutzer eine 
In-Place-Transformation wählen, muß er mit dem Signal 
PSD die Ein- oder Ausgangs-Werte in umgekehrter 
Adreßreihenfolge wählen. 

Der Baustein Am29540 läßt sich auch zur Ausführung 
inverser Transformationen verwenden, ein nützliches 
Merkmal in Anwendungen, bei denen man den Über- 
gang von der Frequenz- zur Zeitdomäne benötigt. Die 
Berechnung inverser Transformationen erfolgt gradlinig 
— die Adreßsequenzen, die benötigt werden, sind die 
gleichen wie bei Vorwärtstransformation. Bei Wurzel-2- 
Transformationen ist der einzige Unterschied zwischen 
inverser und Vorwärtstransformation die komplexe 
Exponentialfunktion: e/® muß ersetzt werden durch e’°®. 
Der Austausch des Vorzeichens im Argument der 
Exponentialfunktion entspricht dem Ersatz des Koeffi- 
zienten sin® durch -sin®, eine Operation, die einfach 
durch Modifizierung der Additionen und Subtraktio- 
nen, die innerhalb der Butterfly auftreten, auszuführen 
ist. Wurzel-2-Transformationen erfordern in ähnlicher 
Weise kleinere Veränderungen von Vorzeichen in der 
Butterfly-Berechnung, um inverse Transformationen 
auszuführen. 

Einige Anwendungen erfordern FFT-Transformatio- 
nen mit Realzahlen. Der Am29540 erzeugt Datenadres- 
sen für Vorwärts- und Invers-Transformationen mit rea- 
len Eingangswerten (RVI) vom Typ, der erstmals von 
Bergland beschrieben worden ist [1]. Diese Transforma- 
tionen sind in der Tabelle aufgelistet. 
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Wichtung 


FFT-Filtercharakteristika lassen sich häufig merklich 
verbessern, indem die Eingangsdaten vorher mit Fakto- 
ren multipliziert werden (Bild 4). Diese Operation wird 
auch Wichtung, Windowing oder Shading genannt. Ver- 
schiedene übliche Wichtungsfunktionen sind bereits 
dokumentiert [2]. 

Der Baustein Am29540 unterstützt zwei Wichtungs- 
verfahren für Wurzel-2-Transformation. Das erste und 
einfachste ist die Durchführung eines Durchlaufes, 
bevor die FFT beginnt. Dazu werden Adressen erzeugt, 
indem der Am29540 auf die erste Stufe der Wurzel-2- 
DIF-Transformation programmiert wird. Dabei entste- 
hen Datenadressen, die zum Zugriff auf Eingangsdaten 
benötigt werden sowie die Koeffizienten zum Zugriff auf 
die Wichtungswerte, die in einer Look-Up-Tabelle 
gespeichert sind. Nach Beendigung des Vorlaufs wird 
der Baustein neu programmiert, um die gewünschten 
Werte für eine Wurzel-2-FFT zu adressieren. 

Die zweite Möglichkeit nutzt die Vorteile der Struktur 
einer DIT-FFT. In der ersten Stufe einer DIT-FFT sind 
lediglich die Werte Sinus 0 und Cosinus 0 erforderlich. 
Daraus ergibt sich, daß alle Multiplikationen der ersten 
Stufe mit Faktoren von +1, —1 oder 0 erfolgen, so daß 
ein Multiplizierer für diesen Vorgang eigentlich gar 
nicht erforderlich ist. Die Wichtung kann daher, wenn 
sie in dieser Stufe untergebracht werden soll, den unge- 
nutzten Multiplizierer verwenden. Indem man den 
Am29540 so konfiguriert, daß er eine Wurzel-2-DIF-FFT 
für die Stufe 1 ausführt und dann den FFT-Typ von DIF 
auf DIT für alle übrigen Stufen ändert, lassen sich die 
erforderlichen Daten, Wichtungen und Koeffizienten- 
adressen erzeugen. 

Praktisch alle brauchbaren Wichtungsfunktionen sind 
symmetrisch um einen zentralen Punkt. Wenn Y (n) eine 
symmetrische N-Punkte-Wichtungsfunktion ist, muß 
der Punkt Y (x) mit dem Punkt Y (N-x) übereinstimmen. 
Diese Symmetrie bedeutet, daß ein Benutzer nicht alle N 
Punkte der Wichtungsfunktion zu speichern hat: (N/2) + 
1 Punkte sind ausreichend. Der Typ Am29540 unter- 
stützt die Adressierung solcher halber Tabellen, indem 
gleichzeitig die Adressen s und m-x erzeugt werden, 


wodurch sich die erforderliche Speicherkapazität für 
die Wichtungsfunktionen verringert. Aus diesem Grund 
ist ein separater Speicher für die Wichtungsfunktion 
(wie bei van Hann) nicht erforderlich. 


Typische FFT 


Der Betrieb des Am29540 läßt sich am besten verste- 
hen, wenn man dessen Verwendung in einer typischen 
FFT betrachtet. Wenn man beispielsweise eine 16- 
Punkt-DIT-FFT (Bild 2) implementieren möchte, ent- 
spricht dieser Typ der vierten Zeile von Tabelle 2. Um 
den Am29540 zu initialisieren, muß man die entspre- 
chenden Transformationslängen-Codes und Steuerbits 
in die Latches des Chips laden. Bei diesem Beispiel hat 
der Transformationslängen-Code einen Wert von 0011;; 
Steuerbits haben die Werte PSD = 1, RADIX4/2 = 0 und 
DIT/DIF = 1. Nach der Programmierung des Bausteins 
mit diesen Daten wird der Butterfly-Zähler mit der 
Reset- oder Reset/Load-Instruktion initialisiert. 

Nachdem er initialisiert ist, erzeugt der Baustein 
Daten- und Koeffizienten-Adressen für die erste Butter- 
fly-Operation des FFT. Anschlüsse AS0...3 wählen die 
verschiedenen Adressen aus. Für diesen Algorithmus 
werden die Eingangs- und Ausgangs-Datenadressen für 
AS = 0, 1 produziert, die Koeffizientenadressen für AS 
= 8. Nachdem alle Adressen gelesen wurden, geht der 
Baustein zur nächsten Butterfly über, indem eine Zähl- 
instruktion ausgeführt wird. Die Reihenfolge, in der die 
Butterflies abgearbeitet werden, zeigt der Pfeil in Bild 2. 
Der zeitliche Ablauf, die Initialisierung und die sequen- 
tielle Erzeugung der Adressen sind in Bild 5 dargestellt. 
Es ist zu beachten, daß die in Bild 2 dargestellte FFT- 
Einrichtung die Ausgangsdaten in umgekehrter Reihen- 
folge der Adressen erzeugt. 
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Bild 5. Die Operation des CP 
Am29540 beginnt mit dem La- 
den des Codes für die Trans- 
formationslänge und der Steu- 


ersignale in die Latches auf TSEL,TSTRB 
dem Chip. Anschließend wird RADIX 4/2, PSD, 
der Butterfly-Zähler zurückge- DIT/DIF 
setzt. Nach der Initialisierung 
wählt der Baustein die Daten- SEL,STRB 

| und Koeffizienten-Adressen . 
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Bausteinfamilie vereinfacht FFT 


Beim Entwurf von Signalverarbeitungssystemen muß 
man komplexe Vorüberlegungen anstellen. Die wichtig- 
ste Entscheidung in diesem Zusammenhang ist, ob 
analoge oder digitale Techniken Verwendung finden 
sollen. Dann muß man festlegen, ob die Verarbeitung 
im Zeit- oder im Frequenzbereich durchzuführen ist. In 


1 Faltung und Frequenzbereich 


Am Beispiel eines der verbreitetsten Signalverarbei- 
tungs-Algorithmen, der Faltung, wird deutlich, warum 
man bisher im Zeitbereich arbeitete, obwohl es im Fre- 
quenzbereich wesentlich effizienter ist. Dieses Verfah- 
ren wird dazu benutzt, die Übertragungsfunktion Y 
eines beliebigen linearen, zeitlich invarianten Systems 
in bezug auf das Eingangssignal X zu bestimmen. In der 
zeitdiskreten Form (also digital) wird diese Funktion 
durch folgende Summierung wiedergegeben: 


M-I 
Ke2bie 

Die Ausdrücke h,, i=o bis M-I geben das Impulsver- 
halten des Systems an. Um die Ausgangswerte zu erhal- 
ten, müssen jeweils M Multiplikationen ausgeführt und 
die Produkte addiert werden. M muß eine endliche Zahl 
sein, daher werden die auf diesem Verfahren beruhen- 
den Anordnungen auch „Finite-Impulse-Response-Fil- 
ter“ (FIR) genannt. Um einen Filter hoher Qualität zu 
realisieren, muß die Zahl M sehr groß sein, was zu einer 
umfangreichen Rechenbelastung des Systems führt. 

Im Frequenzbereich wird die Faltung durch Multipli- 
kation ersetzt [2]. Wenn die Fourier-Transformation des 
Eingangssegments X bekannt ist, muß diese lediglich 
punktweise mit der Übertragungsfunktion des Systems 
multipliziert werden, um die Fourier-Transformation Y 
des Ausgangssignals zu erhalten. 


yk = Hr % 


Das Frequenzverhalten bzw. die Übertragungsfunk- 
tion Hı ist die Fourier-Transformation des Impulsver- 
haltens. Es ist bei diesem Verfahren pro Punkt lediglich 
eine komplexe Multiplikation (vier im reellen Zahlenbe- 
reich) erforderlich, wodurch das Verfahren eine hohe 
Effizienz aufweist. Allerdings müssen im Normalfall 
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der Vergangenheit sorgte die verfügbare Hardware 
dafür, daß die Entscheidung meistens zugunsten des 
Zeitbereichs ausfiel. Inzwischen ist aber eine neue IC- 
Familie auf den Markt gekommen, die es dem Entwick: 
ler erleichtert, im Frequenzbereich eine optimale 
Systemlösung zu finden. 


Ein- und Ausgangswerte im Zeitbereich vorliegen. 
Daher ist es notwendig, die Fourier-Transformation aus- 
zuführen. Einen kontinuierlichen Datenstrom erreich 
man, indem die Menge der Daten in Blocks aufgeteil 
und die diskrete Fourier-Transformation (DFT) ausge- 
führt wird. Die Transformation der Ein- und Ausgangs- 
werte nimmt den größten Aufwand in Anspruch, wei 
das Impulsverhalten lediglich einmal zu transformieren 
ist. Wenn die Daten in N Blocks (N Stützstellen) aufge- 
teilt werden, sind N?” komplexe Multiplikationen pro 
Transformation erforderlich. Das ergibt eine Gesamtzah 
von 8N + 4 reellen Multiplikationen. Weil N größer als 
M gewählt werden muß, um die Transformation des 
Impulsverhaltens zu ermöglichen, wird klar, daß dieses 
Verfahren weniger effizient als die Verarbeitung im Zeit- 
bereich ist. 

Die Situation verbessert sich bei Anwendung deı 
schnellen Fourier-Transformation (FFT). Diese reduzier! 
die Anzahl der erforderlichen Multiplikationen pro 
Transformation von N’ auf % N - log, N. 





Die Zahl der reellen Multiplikationen beträgt dann pro 
Ausgangs-Stützstelle 4 - log; N+4. Die Zahl kann kleiner 
als M gemacht werden. Diese einfache Analyse berück- 
sichtigt allerdings noch nicht, daß die Faltung zyklisch 
durchgeführt wird. Aus diesem Grunde beträgt die 
Anzahl der Multiplikationen pro Stützstelle (Bild 1): 


4 N log; N+4N 
N-M+1 


Wenn man z.B. N = 1024 wählt, werden 101 Stütz- 
stellen mit 49 reellen Multiplikationen berechnet. Das 
sind weniger als die Hälfte im Vergleich zur Methode im 
Zeitbereich, bei der 101 erforderlich sind. Wenn zwei 
Signale durch identische Filter geleitet werden, kann 
das ohne zusätzliche Multiplikationen erfolgen. Der Fre- 
quenzbereich ist daher trotzdem noch wirtschaftlich. 
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2 Problem FFT 


Trotz verbesserter Effizienz wird die Faltung am häu- 
figsten im Zeitbereich durchgeführt, weil Prozessoren, 
die für FFT Verwendung finden, sehr komplex sind. 
Diese Komplexität besteht in zweifacher Hinsicht: 
Erstens muß der Prozessor komplexe Zahlen verarbei- 
ten. Die meisten Prozessoren sind in der Lage, dies zu 
tun, allerdings müssen Real- und Imaginärteil im Multi- 
plexbetrieb verarbeitet werden. Für die meisten Fälle ist 
das nicht optimal, weil die Parallelstruktur der Spezial- 
Prozessoren nicht ausgenutzt wird. Allerdings sind die 
derzeit verfügbaren LSI-Schaltungen nicht so struktu- 
riert, daß sie zu einer solchen Prozessor-Architektur 
passen, und ein Entwickler möchte nicht unbedingt 
einen eigenen aus MSI- und SSI-Schaltungen aufbauen. 
Das zweite und wesentlich größere Problem ist die 
Erzeugung der Adreßsequenzen. Die FFT besteht aus 
einer wiederholten Implementation einer Kernoperation 
mit der Bezeichnung „Butterfly“. Diese ist relativ ein- 
fach und umfaßt nur eine komplexe Multiplikation, eine 
komplexe Addition sowie eine komplexe Subtraktion, 
die allerdings für eine Transformation mit N Stütz- 
stellen 

% log N 
mal ausgeführt werden müssen, d. h. beispielsweise für 
1024 Punkte insgesamt 5120mal. Jede Butterfly erfordert 
zwei Datenadressen sowie die Adresse einer komplexen 
Konstantentabelle. Normalerweise werden diese Adres- 


sen in einem separaten MSI-Prozessor erzeugt, der paral- 
lel zum Arithmetikprozessor arbeitet und aus 20...40 ICs 
besteht. 

Durch diese Tatsache wird die Verwendungsmöglich- 
keit für die FFT stark eingeschränkt. So ist z. B. bei der 
Spektrumanalyse die DFT wesentlich weniger effizient 
als die FFT. Trotzdem wird sie in schmalbandigen 
Systemen oft benutzt, obwohl die Anzahl der Ausgangs- 
leitungen normalerweise für die Verwendung der FFT 
sprechen würde. Viele andere Systeme arbeiten in 
unwirtschaftlicher Weise, nur weil es zu schwierig ist, 
in den Frequenzbereich überzugehen. Eine schaltungs- 
technisch einfache Lösung würde dem Entwickler ein 
leistungsfähiges Werkzeug in die Hand geben. 


3 Die Bausteinfamilie Am29500 


Zur Lösung der hier angesprochenen Probleme bei der 
Signalverarbeitung wurde die Bausteinfamilie Am29500 
konzipiert. Die wichtigsten Mitglieder sind mikropro- 
grammierte LSI-Funktionen unter Benutzung der 8-Bit- 
Byte-Slice-Architektur. Wo es sinnvoll erschien, wur- 
den nicht erweiterbare Funktionen hinzugefügt, z.B. 
MSI-Unterstützungsfunktionen. Alle Bausteine sind 
intern in ECL-Technik aufgebaut, für die E/A- 
Anschlüsse werden die Pegel auf Werte umgesetzt, die 
TTL-kompatibel sind. Diese Schaltungstechnik sorgt 
zusammen mit dem IMOX-Prozeß (Oxidisolation) für 

hohe Systemgeschwindigkeit. 
Zwei Mitglieder der Bausteinfamilie, 
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Bild 1. Rechenbelastung für Faltung im Zeit- und Frequenzbereich 


der mikroprogrammierbare Signalpro- 
zessor Am29501 und die 16-Bit-Paral- 
lelmultiplizierer Am29516/29517, er- 
möglichen die Konstruktion von effi- 
zienten, parallelen Arithmetikprozes- 
soren mit Pipeline-Struktur. Sie eignen 
sich insbesondere für die wiederholten 
kurzen Operationen der Signalverar- 
beitung wie z.B. schnelle Multiplika- 
tion und Manipulation komplexer 
Zahlen. 

Das zweite Problem, die FFT-Adreß- 
generation, wird vom Adreßsequenzer 
Am29540 gelöst. Dieser 40polige Bau- 
stein erzeugt alle Adressen, die für ei- 
nen weiten Bereich von FFT-Variatio- 
nen notwendig sind, und ist in seiner 
Transformationslänge programmierbar. 


Frequenz- 
Bereich 


Der Systemdurchsatz wird durch 
eine überlappende Struktur mit Pipe- 
line-Technik optimiert und durch 


zwei Multi-Level-Pipeline-Register 
(Am29520 und Am29521) unterstützt. 

Mit der Familie Am29500 kann man 
einen leistungsfähigen Array-Prozes- 
sor, wie er in Bild 2 dargestellt ist, 
konstruieren. Dieser führt, als Slave- 
Prozessor am Hauptbus des Systems 
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angeschlossen, eine große Zahl von Arithmetik-Opera- 
tionen aus, die überwiegend aus Signalverarbeitungsal- 
gorithmen bestehen. Bei Verwendung dieser Architektur 
ist es möglich, ein Wurzel-2-Butterfly in vier Instruk- 
tionszyklen zu implementieren. Mit den Leistungsmerk- 
malen, die für die Bausteine angegeben werden, kann 
eine komplexe FFT mit 1024 Stützstellen in weniger als 
3 ms ausgeführt werden. 


4 FFT-Adreßsequenzer Am29540 


Weil die Arbeitsweise des FFT-Adreßsequenzers 
Am29540 stark mit den Grundlagen dieser Technik 
zusammenhängt, kann die Beschreibung nur in der spe- 
ziellen FFT-Terminologie erfolgen. Für Leser, denen 
diese Technik noch nicht geläufig ist, folgt eine kurze 
Zusammenfassung. Nähere Einzelheiten finden sich 
unter den Literaturstellen [2] und [3]. 

Eine FFT besteht aus vielen „Butterfly“-Operationen. 
In der Regel haben diese zwei komplexe Eingangswerte, 
die mit einem komplexen Koeffizienten kombiniert wer- 
den, wobei sich zwei komplexe Ausgangswerte ergeben: 
A’= A + BWk — 2%] 

B’ = A - Bwk Wı=E N 


Dabei ist N die Anzahl der transformierten Punkte, die 
in diesem Fall eine Potenz von 2 sein muß. 

Die Operation wird so oft durchgeführt, bis alle N 
Eingangspunkte verarbeitet sind und ein neuer Satz von 
N Punkten, genannt „Durchgang“ oder „Kolumne“ von 
Butterflies, erzeugt ist. Die gesamte Operation wird mit 
den neuen Daten ausgeführt, wobei die Paarung anders 
gewählt ist. Bei 2” Punkten müssen n Durchgänge von 
N/2 Butterflies gemacht werden, um die Daten fort- 
schreitend zu transformieren. Insgesamt werden 

%N log, N 
Butterflies ausgeführt. 

Eine wichtige FFT-Klasse ist in Bild 3 gezeigt. Es 
handelt sich um eine 8-Punkt-Transformation, für die 
drei Kolumnen vorgesehen sind, die jeweils vier Butter- 
fly-Operationen ausführen. Zunächst enthalten die acht 
Speicherplätze Eingangsdaten. Dann durchlaufen Paare 
der Datenpunkte die Butterfly-Operation und die Aus- 
gangswerte in die Speicherplätze zurückgeschrieben, 
aus denen sie entnommen wurden. Die anderen beiden 
Durchläufe erfolgen in der gleichen Weise. Bei dem 
Verfahren werden nur die Speicherplätze benutzt, die 
die anfänglichen Daten enthielten, daher bezeichnet 
man dies auch mit „In Place“. 

Zentraler Teil des Am29540 ist ein durch einen 2-Bit- 
Mikrocode gesteuerter 19-Bit-Zähler (Bild 4). Mit die- 
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sem werden die Butterfly-Sequenzen gesteuert. Es sind 
Transformationen von bis zu 2'° Punkten möglich (16 
Durchgänge mit 2'°? Butterflies). Die vier Instruktionen 
sind: 
1. Count (Zählen) (nächste Butterfly) 
2. Reset (Start der Transformation) 
3. Reset Load (Offset) 
4. Hold 
Die Länge des Zählers ist programmierbar, so daß alle 
binären Transformationslängen zwischen 2 und 64 K 
Punkten zu verarbeiten sind. Dazu ist der Adreßbus 16 
Bit breit. Bei Transformation von weniger als 64 K 
Punkten sind die Ausgänge der oberen Bits inaktiv. So 
benötigt man beispielsweise für eine 1024-Punkte-FFT 
lediglich 10 Adreßbits. Man kann den Am29540 auch 
mit einem Offset laden, der über die ungenutzten Aus- 
sänge der oberen Bits während der Transformation aus- 
gegeben wird. In diesem Beispiel wären das 6 Bit. 
Diese Bits werden über den Adressenausgang geladen, 
der bidirektional ausgelegt ist. Der Vorgang erfolgt wäh- 
rend des Starts der Transformation, indem dem Zähler 
das Kommando „Reset/Load“ gegeben wird. Wenn kein 
Offset erforderlich ist, kann man das einfache Reset- 


Kommando verwenden. In beiden Fällen wird der Zäh- 
ler auf die erste Butterfly-Operation der Transformation 
zurückgesetzt. 

Die restliche Schaltung besteht aus kombinatorischer 
Logik, mit der aus den Zählerausgängen die erforderli- 
chen Adressen und Flags decodiert werden. Wenn erfor- 
derlich, können die vorhergehenden Adressen der But- 
terfly-Operationen wiederholt werden. Eine solche 
Technik bietet sich für langsamere preiswerte Systeme 
an, in denen die Leseadressen der Daten als Schreiba- 
dressen an der gleichen Stelle (‚In Place‘) regeneriert 
werden, nachdem die Arithmetik-Operation ausgeführt 
worden ist. Der Butterfly-Zähler erhält erst dann den 
nächsten Taktimpuls, wenn die Arithmetik-Operation 
vollständig ausgeführt ist. Weil es nicht sinnvoll ist, das 
Taktsignal direkt extern durch ein Gatter zu steuern, ist 
die Hold-Instruktion besonders wichtig. Diese dient 
gleichzeitig zur Erzielung der Synchronität bei Butter- 
fly-Operationen mit mehreren Zyklen. 

Zur Festlegung der FFT-Variation sind drei Leitungen 
vorgesehen. Die erste ermöglicht die Auswahl zwischen 
DIT- (Decimation in Time) und DIF-Algorithmus (Deci- 
mation in Frequency). Man erhält mit beiden Verfahren 
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die gleichen Ergebnisse. Die weiter oben angegebene 
Butterfly-Formel ist ein DIF-Algorithmus, die DIT- 
Beziehung sieht ähnlich aus. Der wichtigste Unter- 
schied, was den FFT-Adreßsequenzer angeht, liegt bei 
den komplexen Koeffizienten. 
In-Place-Transformationen sind sehr speichereffi- 
zient, haben allerdings auch einen Nachteil. Wenn die 
zu transformierenden Daten eine natürlich geordnete 
Menge von Abtaststellen des Signals darstellen, weist 
die Ausgangsfunktion nicht die gleiche Reihenfolge auf. 
Die Werte sind „bitverkehrt“ angeordnet. Dabei werden 
die Adreßbits vertauscht. Beispielsweise kann der 
Abtastwert von 1011 unter der Adresse 1101 gefunden 
werden. Wenn am Ausgang das Signal in einer bestimm- 
ten Reihenfolge vorliegen muß, kann man die Eingangs- 
signale vorher entsprechend vertauschen. Die Adressen- 
reihenfolge ist bei diesen zwei Möglichkeiten für Daten 
und Koeffizienten verschieden. Der Baustein Am29540 
kann die Daten weder vertauschen noch neu ordnen, 
ermöglicht aber, dies vorher auszuwählen. Dazu dient 
das Steuersignal „PSD‘ (Pre-Scramled Data Control). 
Die dritte Steuerleitung legt fest, ob eine Wurzel-2- 
oder Wurzel-4-Transformation ausgeführt wird. Die wei- 
ter oben beschriebene Butterfly-Operation mit zwei Ein- 
gängen ist eine Wurzel-2-Transformation. Bei der Wur- 
zel-4-Transformation hat jede Butterfly-Operation vier 
Eingangswerte und drei komplexe Koeffizienten. Der 
Vorteil des Wurzel-4-Verfahrens ist, daß mehr Hardware 
parallel benutzt werden kann, obwohl die Operationen 
komplizierter sind. Der Aufwand verringert sich auf ein 
Viertel, nur die Hälfte der Speicherzugriffe muß ausge- 
führt werden. Nachteilig ist, daß die Transformations- 


länge auf Potenzen von vier beschränkt sind. Für DI] 
oder DIF, In-Place-Operationen und Vertauschen de 
Daten gelten dieselben Gesichtspunkte. Allerdings sind 
die Datenadressen stellenweise vertauscht, die Bit 
haben paarweise ihre Reihenfolge verändert, innerhalt 
des Paares wird sie beibehalten. Für die drei Leitunger 
zur Steuerung des FFT-Typs und für die vier Leitungen 
die die Transformationslänge festlegen, sind Latche 
vorgesehen. 

Vier Auswahleingänge ermöglichen die Benutzun: 
von 16 unterschiedlichen Adressen, obwohl normaler. 
weise nur eine Untermenge davon Verwendung findet 
Die erste Gruppe von vier Adressen sind die Datenadres 
sen für die Wurzel-4-Transformationen. Bei der Wurzel 
2-Operation werden die Datenadressen aus den erster 
zwei Auswahlcodes dieser Gruppe genommen. Dit 
zweite Gruppe von vier Adressen sind Ausweichadres 
sen, die bei Transformationen benutzt werden, die nich 
am selben Speicherplatz erfolgen (,Non-In-Place‘“) 
Dabei entsteht keine Vertauschung der Bits, allerding 
verdoppelt sich der erforderliche Speicherbereich 
Wenn beide Speicherhälften parallel arbeiten, sine 
gleichzeitig Schreib- und Leseoperationen möglich. 

Mit der dritten Gruppe der Adressen kann man auf dit 
komplexen Koeffizienten zugreifen. Für die Wurzel-4 
Operation werden alle drei, für die Wurzel-2-Operatioı 
nur die erste Adresse benötigt. Diese Adressen sind mi 
Absicht auf den höherwertigen Stellen untergebracht 
weil die gleiche Tabelle für verschiedene Transforma 
tionsgrößen Verwendung finden kann. Wenn ein 
Tabelle für die größte Transformation festgelegt ist, kön 
nen alle anderen durch Zugriff auf eine Untermeng 
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daraus ausgeführt werden. Das vierte Mitglied dieser 
Gruppe wird zur Adressierung der Tabelle zum „Sha- 
ding‘ benutzt. Es handelt sich dabei um eine Multiplika- 
tion der Eingangsdaten mit einer Wichtungsfunktion. 
Die Ausgangswerte der Transformation werden dadurch 
modifiziert, wenn z. B. Frequenzanteile gedämpft sind, 
die nicht genau mit den abgetasteten Stellen überein- 
stimmen. 


Die letzte Gruppe aus vier Adressen dienen der Trans-. 


formation reeller Werte (RVI — Real Valued Input). 
Damit wird das Spektrum reeller Signale ermittelt. Der 
Speicherbedarf ist dabei auf die Hälfte reduziert und der 
Imaginärteil des Eingangssignals muß nicht auf Null 
gesetzt werden. 

Drei Flags vereinfachen den Betrieb des Mikropro- 
gramm-Sequenzers. „FFT COMPLETE“ zeigt an, daß die 
letzte Butterfly-Operation der Transformation erreicht 
ist. Ein Schleifenzähler ist daher überflüssig. Das Mikro- 
programm muß nur Butterfly-Operationen ausführen, 
bis dieses Flag aktiviert ist; das Programm schließt bei 
jeder beliebigen Transformationslänge beim richtigen 
Punkt ab. Ein Durchgang bedeutet einen maximalen 
Wortzuwachs um 9 dB. Wenn im oberen Bereich zwei 
Bit verarbeitet werden, kann kein Überlauf auftreten. Bei 
Block-Fließkomma wird ein einzelner Exponent für die 
zu transformierenden Daten benutzt. Die Überprüfung 
der Schreibdaten erfolgt während eines vollständigen 
Durchlaufs. Wenn die Daten den Kopf erreichen, wer- 
den sie zur Vermeidung von Problemen geteilt. Das Flag 
„ITERATION COMPLETE“ erscheint während der letz- 
ten Butterfly-Operation jedes Durchgangs, um diesen 
Vorgang zu steuern. 

Das dritte Flag hat zwei Funktionen. Normalerweise 
unterscheidet es, ob die gerade oder ungerade Spalte der 
Butterflies verarbeitet wird. Gesteuert wird damit die 
Umschaltung zwischen Schreib- und Lesespeicher bei 
Operationen, die nicht auf denselben Plätzen stattfin- 
den. Die maximale Taktrate beträgt beim Zugriff 10 
MHz, zwischen Adressenanwahl und Ausgabe des 
Signals vergehen 50 ns. 


5 Betrieb des Am29540 


Weil der Baustein ausschließlich auf dem Adreßbus 
arbeitet, kann der FFT-Adreßsequenzer mit jedem Arith- 
metikprozessor betrieben werden. Das kann z.B. eine 
beliebige MOS-CPU mit Fließkomma-Coprozessor sein. 
Der Sequenzer übernimmt dabei die Adreßberechnung. 
Sinnvoller ist die Kombination mit einem schnellen 
bipolaren, mikroprogrammierten System (Bild 2), das 
alle vier Zyklen einer Butterfly-Operation durchführen 
kann. Dafür sind drei Adressen erforderlich, daher wird 
der Am29540 synchron mit Leerzyklus betrieben. 

Um hohen Durchsatz erreichen zu können, müssen 
die Butterflies überlappend und mit der Pipeline- 
Methode ausgeführt werden. Es ist daher erforderlich, 
die Datenadressen während der arithmetischen Opera- 
tion (oder anderen Speicheroperationen) zu speichern. 


Die  Mehrebenen-Pipeline-Register Am29520/29521 
(Bild 5) ermöglichen den Aufbau einer Adreßpipeline 
parallel zur Datenpipeline. Zwei Adressen werden 
erzeugt und in die Pipeline geladen. Die Koeffizienten- 
Adressen lädt man in das einfache Adreßregister 
Am2954. Alle vier Zyklen wird der Butterfly-Zähler 
geladen, wobei während der anderen drei Zyklen ein 
Hold-Befehl gegeben wird. Der Adreßausgang ist wäh- 
rend einer der vier Zyklen inaktiv. In sehr schnellen 
Systemen können auch mehrere Bausteine vom Typ 
Am29540 parallel arbeiten, um die Adressen in der 
notwendigen Geschwindigkeit zu erzeugen. 


6 Ausführung der schnellen Faltung 


Wie bereits beschrieben, hat die schnelle Faltung im 
Frequenzbereich drei Phasen: Transformation, Multipli- 
kation und Rücktransformation. Der Hostcomputer lädt 
die Eingangsdaten in das RAM. Danach wird per Makro- 
Instruktion die Vorwärts-FFT ausgelöst, wobei die Bits 
vertauscht sind. Darauf erfolgt die Multiplikation mit 
der im PROM gespeicherten Übertragungsfunktion. 
Wenn diese Funktion dynamisch geändert werden muß, 
kann das PROM auch durch ein RAM ersetzt werden, 
das der Hostcomputer lädt. 

Um an die richtige Reihenfolge angepaßt zu sein, muß 
die Übertragungsfunktion auch bitweise vertauscht 
gespeichert sein. Weil die Reihenfolge, in der die Multi- 
plikationen ausgeführt werden, unkritisch ist, kann ein 
einzelner FFT-Durchlauf auf alle Datenpunkte gleichzei- 
tig zugreifen. Die Butterfly-Operation wird durch die 
Multiplikation mit den entsprechenden Punkten der 
Übertragungsfunktion ersetzt. In einem umfangreichen 
Prozessor kann man einen der nicht verwendeten 
Adreßgeneratoren für diese Operation benutzen. 
Dadurch vermeidet man, daß Daten und Übertragungs- 
funktion unter einer Adresse zu speichern sind. Ein 
solcher Prozessor kann aus den bipolaren Bit-Slice-Ele- 
menten Am2901 oder dem 16-Bit-Controller Am29116 
aufgebaut werden. 

Der einzige Unterschied bei der Ausführung der Rück- 
transformation ist, daß die komplexen Koeffizienten 
hinzugefügt werden müssen. Dieses erreicht man durch 
eine einfache Veränderung des Mikrocodes für den 
Arithmetikprozessor, damit Additionen und Subtraktio- 
nen, wo erforderlich, ausgetauscht werden. Wenn die 
Eingangsdaten bitweise vertauscht vorliegen, muß die 
entsprechende inverse Transformation gewählt werden. 
Das Augangssignal liegt in natürlicher Reihenfolge vor, 
so daß sich Vertauschungen erübrigen. Die Korrektur für 
die zyklische Faltung nimmt der Hostrechner vor. 
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Dipl.-Phys. Martin Winterer 
Signalprozessor löst 


rechenintensive Probleme 


Bereits in den 40er Jahren erkannte man die Vorteile 
einer digitalen Signalverarbeitung. Sie blieb allerdings 
Spekulation, da die dazu benötigte Technik noch 
fehlte. Erst die sich nach 1950 entwickelnde Com- 
puterindustrie legte den Grundstein einer „digitalen 
Revolution“: Mit der Einführung integrierter Schaltun- 
gen und weitergehender Miniaturisierung führte sie 
schließlich zu den ersten Mikroprozessoren, die unge- 
heuere Auswirkungen auf alle Bereiche der Technik 
hatten. Parallel dazu gewann auch die digitale Verar- 


Anstoß für diese Arbeit gab der von der Firma ITT 
Intermetall kürzlich vorgestellte Signalprozessor mit der 
Typenbezeichnung UDPI 01. Eine Zusammenstellung 
der Eigenschaften zeigt Tabelle 1. Der Grundgedanke bei 
der Entwicklung seiner Prozessorarchitektur war nicht 
nur, einen Mikroprozessor mit zusätzlichem Hardware- 
Multiplizierer herzustellen, sondern einen Chip, der die 
speziellen Aufgaben, die an ein digitales signalverarbei- 
tendes System gestellt werden, optimal erfüllt. Neben 
einer Beschreibung dieses neuen Bausteins ist die 
Absicht dieses Artikels vorrangig darin zu sehen, die 
angesprochenen Aufgaben und daraus erwachsende 
Forderungen darzulegen sowie Applikationen aufzu- 
zeigen. 


1 Methoden der digitalen Signalverarbeitung 


Ein digitales System benötigt als Eingangsdaten eine 
Folge von Zahlenwerten, die der gewünschten Funktion 
entsprechend verschiedenen mathematischen Operatio- 
nen unterworfen wird. Das Endprodukt dieser Verknüp- 
fungen bildet wieder eine Folge von Zahlen als Aus- 
gangswerte. In analogen Systemen erhält man die Ein- 
gangszahlenfolge durch Abtasten eines analogen Signals 
mit anschließender Analog/Digital-Umsetzung. Durch 
diese Aktionen wird das Signal sowohl zeit- als auch 
amplitudenquantisiert. Aufgrund der Zeitquantisierung 
muß man ein bandbegrenztes Signal voraussetzen, da 
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beitung von ursprünglich analog vorliegenden Signa- 
len an Bedeutung. Zu Anfang hatte man es mit relativ 
teuren und umfangreichen Systemen zu tun. Doch 
auch hier zeichnet sich ein Trend zu programmierba- 
ren und damit in großen Stückzahlen herstellbaren 
Bausteinen ab, ähnlich der Entwicklung, die zu den 
Mikroprozessoren führte. Die heutige Technik dieser 
digitalen Signalprozessoren (DSP) erlaubt eine 
sinnvolle Anwendung für Signalfrequenzen bis über 
100 kHz hinaus. 


sonst Aliasing-Effekte auftreten. Als Auswirkung der 
Amplitudenquantisierung entsteht ein Fehler, der sich 
als Rauschen im Signal äußert und den man als Quanti- 
sierungsfehler bezeichnet. Diese beiden Phänomene 
sind in der betreffenden Literatur eingehend untersucht 
worden, deshalb soll hier darauf nicht näher eingegan- 


Tabelle 1. Steckbrief des Signalprozessors UDPI 01 





— Befehlszykluszeit 100 ns 

— Festkomma-Zweierkomplement-Arithmetik 

-16 X 16 — 31-Bit-Multiplikation in 200 ns (inkl. Addieren, 
Operanden holen, Ergebnis abtransportieren) 

— Zwei Akkumulatoren mit 31 Bit 

— Wortlänge für Daten und Befehle: 16 Bit 

— Interner Speicherbereich: 


Programm-ROM: ı1Kx 16 Bit 
Daten-ROM: 72 x 16 Bit 
Daten-RAM: 440 X 16 Bit 


— Vierfacher Unterprogramm-Stack 
— Mehrere Ein-/Ausgabemöglichkeiten: 
Seriell (schnell, bis zu 5 MBit/s) 
Seriell (langsam, IM-Bus) 
Parallel (16 Bit) 
— Kompatibel mit 16-Bit-Mikroprozessoren, wie z. B. MC 68000 
— Versorgungsspannung 5 V, Leistungsaufnahme 80 mW 
— 2,4 um Silicon-Gate-CMOS-Technologie 
— Emulator-IC mit externem Programmspeicher verfügbar 
- Cross-Assembler und Softwaresimulator geschrieben in 
FORTRAN (Standard 77 mit einigen wenigen Zusatzfunk- 
tionen, die auf DEC-Rechner verfügbar sind) 
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Bild 1. Prinzipieller Aufbau eines Systems zur digitalen Verar- 





beitung analoger Signale 











gen werden [1...4]. Andererseits wird aus der Ausgangs- 
zahlenfolge durch eine Digital/Analog-Umsetzung ein 
analoges Signal hergestellt, das zunächst als Treppen- 
kurve vorliegt. Durch Glättung mit einem Tiefpaßfilter, 
das alle Frequenzen herausfiltert, die von der Stufung 
herrühren, erhält man das gewünschte analoge Aus- 
gangssignal. Bild 1 zeigt schematisch die Funktions- 
blöcke eines kompletten digitalen Systems zur Verarbei- 
tung analoger Signale. 


2 Aufgaben und Forderungen 


Die Funktionen, die ein digitales System ausführen 
kann, sind vielfältiger Natur; der Großteil der Aufgaben 
wird jedoch mit Hilfe digitaler Filterung bzw. verwand- 
ter Algorithmen beschrieben. 

Die Grundoperation aller digitalen Filter (und vieler 
weiterer Anwendungen) ist die Multiplikation mit 
anschließender Addition. Um dies zu verdeutlichen, 
folgt hier ein kurzer Blick auf die Struktur eines digi- 
talen Filters. Man unterscheidet zwischen transversa- 
len (bzw. nichtrekursiven) und rekursiven Filtertypen 


(Bild 2). 


Bild 2a. 
Ein transversales Filter 


Bild 2b. Ein rekursives Filter zweiter Ordnung 














In transversalen Filtern (Bild 2a) wird die Summe der 
N letzten Abtastwerte gebildet, jeweils gewichtet mit 
einem bestimmten Koeffizienten. Für einen einzelnen 
Schritt benötigt man dazu eine Operation in der Form: 


ru- Tu ri’ a0 


Der Abtastwert X(i-j) ist mit dem Koeffizienten Bj zu 
multiplizieren und das Ergebnis zu Y{i) zu addieren. 
Signalprozessoren sind dazu eingerichtet, diese Opera- 
tion mit maximalem Durchsatz verarbeiten zu können. 

Zusätzlich muß bei jedem Abtasttakt ein neuer Wert 
gespeichert und alle vorherigen Abtastwerte um einen 
Takt verzögert werden (oft als z’'-Funktion bezeichnet). 
Der jeweils älteste fällt dabei weg. Zur Realisierung 
dieser Funktion gibt es zwei verschiedene Ansätze: Zum 
einen wird in manchem DSP diese Umspeicherung tat- 
sächlich vorgenommen, d.h. ein Datenwort wird über 
einen Datenbus an eine andere Stelle bewegt. Diese 
zusätzliche Belastung des Datenbusses verbietet sich 
aber in bestimmten Fällen — doch dazu später. Zum 
anderen läßt man sich von dem Gedanken leiten, daß 
man nicht die Daten auf andere Adressen zu schieben 
braucht, sondern lediglich die Zuordnung der Adressen 
zu den Daten ändert. Dies führt zu einer neuen Art von 
Adressiertechnik, der Modulo-Adressierung. 

Wie diese funktioniert, verdeutlicht Bild 3. Es zeigt 
die Ablage der Abtastwerte (z.B. eines transversalen 
Filters vierter Ordnung) im Speicher. Der aktuell adres- 
sierte Datenwert (zu Beginn eine leere Speicherzelle) ist 
durch einen Pfeil gekennzeichnet (a). Auf diese Stelle 
wird nun der neue Abtastwert eingelesen und gleichzei- 
tig der Datenzeiger um eins dekrementiert. Die früheren 
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Bild 3. Wirkungsweise der Modulo-Adressierung 
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Abtastwerte sind so angeordnet, daß der Zeiger nun den 
ältesten Wert beschreibt (b). Dieser Wert wird gelesen, 
mit dem Koeffizienten B, multipliziert, in einem Akku- 
mulator abgespeichert und der Datenzeiger um eins 
dekrementiert. Erneut wird der betreffende Wert gele- 
sen, mit einem Koeffizienten multipliziert und zu dem 
Akkumulatorinhalt addiert. Interessant ist der Fall (c). 
Der Adreßzähler unterschreitet beim Dekrementieren 
den Wert null. Dann sorgt eine Logik dafür, den Daten- 
zeiger auf der Stelle vier aufzusetzen, d.h. der Inhalt des 
Zeigers wird hier Modulo 5 verstanden. Sind alle fünf 
Abtastwerte verarbeitet, befindet sich das System im 
Zustand (d). Der Datenzeiger steht eine Stelle tiefer als 
zu Beginn (er wurde sechsmal dekrementiert: einmal 
beim Schreiben des neuen Abtastwertes, fünfmal beim 
Verarbeiten der fünf Werte). Die aktuelle Abtastperiode 
ist beendet, das Programm erwartet einen neuen Abtast- 
wert. Der eben noch eingelesene Wert ist nun nicht mehr 
der neueste, sondern um einen Takt gealtert, der bisher 
älteste wird nicht mehr berücksichtigt. Auf dessen Stelle 
zeigt aber der Datenzeiger, d.h., er zeigt wie zu Beginn 
auf eine freie Stelle. Benennt man alle Werte neu, erhält 
man die Darstellung (e). Hier wird deutlich, daß die 
Endstellung der Anfangsstellung entspricht, wenn man 
sich nur für die Datenwerte interessiert, die der Zeiger 
adressiert. 

Will man mit einem Signalprozessor längere digitale 
Filter verarbeiten, sollte er die Möglichkeit dieser 
Modulo-Adressierung besitzen. Wichtig ist auch, daß 
man die Basis der Modulo-Operation (Länge des Ring- 
speichers) frei wählen kann. 

Bei der oben erwähnten Grundoperation werden für 
jeden Zyklus zwei Werte über einen Datenbus dem 
Multiplizierer zugeführt. In vielen Anwendungen (z.B. 
Korrelationen und Polynome) kommt jedoch eine allge- 
meinere Form der „Multipliziere und Addiere“-Opera- 
tion vor: 


A(i) = Bfi) + Cfi) * Di) 


Hier müssen innerhalb eines Zyklus vier Datenworte 
heran- bzw. wegbewegt werden. Auch diese allgemeine 
Operation mit ihrer hohen Auslastung des Datenbusses 
sollte ein Signalprozessor mit hohem Durchsatz verar- 
beiten können. Aus diesem Grund verbietet sich im 
allgemeinen eine zusätzliche Bewegung über einen 
Datenbus zur Ausführung der z'-Funktion. 

Ein grundsätzlicher Qualitätsmaßstab für digitale 
Systeme ist die erzielbare Rechengenauigkeit. Es hat 
sich gezeigt, daß selbst für HiFi-Anwendungen eine 
Festkommadarstellung mit 16 Bit Auflösung ausreicht. 
Die meistverwendete Darstellung ist die Zweier-Kom- 
plement-Darstellung (ZDK) mit linksjustierttem Komma 
(auf eins normierte Zahlen). Geht man von 16 Bit Auflö- 
sung aus (15 Bit plus 1 Bit Vorzeichen), so hat ein 
Multiplikationsergebnis eine Wortlänge von 31 Bit (30 
Bit plus 1 Bit Vorzeichen). Ist das Rechenwerk in der 
Lage, diese 31-Bit-Worte aufzunehmen, begeht man 
auch bei fortlaufenden Akkumulationen keinen Rechen- 
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fehler. Es dürfen sogar beliebig viele Überläufe (Ergebnis 
<-1 oder =>+1) stattfinden, wenn für jeden Überlauf 
nach oben ein Überlauf nach unten vorhanden ist (d.h. 
das Ergebnis auf eins normiert ist). Der Ausgangswert 
besitzt dann immer noch 31 Bit Genauigkeit und wird 
z.B. im Filter Bild 2a erst nach erfolgter Akkumulation 
einer Quantisierung auf 16 Bit unterzogen. 

Anders liegt der Fall bei rekursiven Strukturen (Bild 
2b). Hier werden die Ausgangswerte zum Eingang 
zurückgekoppelt. Dies hat eine wichtige Konsequenz für 
die Rechengenauigkeit: Aus einer 16X16-Bit-Multipli- 
kation, deren Ausgangswert 31 signifikante Stellen ein- 
nimmt, können nur 16 Bit weiterverwendet werden. 
Dieser Vorgang stellt wieder eine Quantisierung dar und 
führt somit zu einem Quantisierungsrauschen, das auch 
zum Eingang zurückgeführt wird. Daneben treten in 
rekursiven Filtern weitere Probleme auf, wie z.B. Stabi- 
litätsprobleme, Grenzzyklen und Überlaufsschwingun- 
gen. Zur Beeinflussung von Grenzzyklen sollte der Pro- 
zessor zur Quantisierung wahlweise Abschneiden oder 
Runden vorsehen sowie eine anschaltbare Sättigungs- 
charakteristik (Klemmung) besitzen, die zur Verhinde- 
rung von Überlaufsschwingungen dient. 

Aufgrund dieser Überlegungen kann man folgende 
Forderung an einen Signalprozessor stellen: 
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Bild 4. Blockschaltung des 
digitalen Signalprozessors UDPI 01 
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Daten 16 Bit 
Multiplizierer 16x16 — 31 Bit 
Akkumulator 31 Bit 


Auswählbare Quantisierung: Runden oder Abschneiden 
anschaltbare Klemmung 
allgem. Grundoperation: 

mit maximalem Durchsatz 
automatische z'-Funktion 


Ati) = Bfi) + Cli) x Di) 


3 Architektur des UDPI 01 


Dieser Baustein ist aufgrund seiner Architektur in der 
Lage, die oben angesprochenen Anforderungen zu erfül- 
len. Er benützt eine für hohe Geschwindigkeit vorteil- 
hafte „Harvard-Struktur“ (Bild 4). Im Gegensatz zur übli- 
chen „Von-Neumann-Architektur“ liegen Daten- und 
Programmspeicher in getrennten Bereichen. Dies er- 
möglicht eine parallele Verarbeitung von Instruktions- 
Fetch und Datentransport. 

Eine direkte Fortführung dieses Gedankens ist die 
weitere Aufteilung des Datenbusses in zwei gleichwer- 
tige Teile, da ein Multiplizierbaustein gleichzeitig zwei 
Multiplikatoren benötigt, die ihm damit parallel zuge- 
führt werden können. Obwohl das Hauptmerkmal eines 
digitalen Signalprozessors, das ihn gegenüber einem 
Standardmikroprozessor auszeichnet, dieser Hardware- 
multiplizierer ist, liegt der entscheidende Vorteil jedoch 
darin, diesem Multiplizierer auch mit maximalem 
Durchsatz Daten bereitzustellen, bzw. dessen Ergebnisse 
abzuholen und weiterzuverarbeiten. Diese Tatsache 
wird oft unterschätzt und allzu viel Gewicht auf die 
Leistung des Multiplizierers gelegt. 

Betrachtet man wiederum den allgemeinen Fall einer 
„Multipliziere und Addiere“-Operation: 


ali) = bfi) + ci) x dfi) 


Hier müssen innerhalb einer Operation vier Daten- 
werte bewegt werden. Legt man zugrunde, daß in einem 
Befehlszyklus nur ein Datum bewegt werden kann, so 
würde man in einem Einbussystem für diese Grundope- 
ration vier Befehlszyklen benötigen. Verteilt man diese 
Datentransporte auf zwei Datenbusse, sind das immer 
noch zwei Datenwerte pro Bus und Operation. Die Mul- 
tiplikations- und Additionseinheit hat somit zwei Zy- 
klen Zeit, eine schnellere Recheneinheit würde keine 
Geschwindigkeitsvorteile mehr bieten. 

Nach diesen generellen Überlegungen sollen nun die 
wichtigsten, in der Schemazeichnung aufgezeigten 
Blöcke beschrieben werden. 


3.1 Arithmetik-Einheit 


Die Arithmetik-Einheit besteht aus einem 16x 16-Bit- 
Multiplizierer und einem 31-Bit-Addierer. Zwei Regi- 
ster MRX und MRY dienen zur temporären Speicherung 
der Multiplikatoren. Das Ergebnis bzw. den Additions- 
wert nimmt einer der beiden 31-Bit-Akkumulatoren auf. 
Eine Multiplikation plus einer Addition bzw. einer Sub- 


traktion wird in zwei Instruktionszyklen zu je 100 ns 
ausgeführt. Ergebnisse können unter Softwarekontrolle 
auf 16 Bit abgeschnitten oder gerundet werden. 

Der Akkumulator A ist dem Datenbus 1, der Akkumu- 
lator B dem Datenbus 2 zugeordnet. Wahlweise kann 
man jeweils den High-Part (16 Bit: Bit 30 bis Bit 15) oder 
den Low-Part (15 Bit: Bit 14 bis Bit 0) eines Akkumula- 
tors mit dem entsprechenden Datenbus verbinden. 
Außerdem ist ein Transport von einem Akkumulator 
zum anderen möglich. 


3.2 Programmzähler und Programmspeicher 


Ein 10-Bit-Programmzähler adressiert einen Adreß- 
raum von 1K Worten zu je 16 Bit. Der Programmspeicher 
ist als ROM ausgelegt und wird für eine bestimmte 
Aufgabe maskenprogrammiert. Eine zweite verfügbare 
Version des Signalprozessors (UDPI EC) adressiert statt 
des internen ROM einen externen Speicher. 


3.3 Adreßzähler und Datenspeicher 


Der Datenspeicher besitzt 512 Worte zu je 16 Bit 
insgesamt. Er ist unterteilt in zwei Blöcke mit je 220 
Worten statisches RAM und 36 Worte ROM. Je einer 
dieser Blöcke ist mit einem der beiden Datenbusse ver- 
bunden. Zur Adressierung von Daten innerhalb der bei- 
den Datenbänke dienen zwei Blöcke von Adreßzählern. 
In jedem Block stehen fünf Adreßzähler mit 8 Bit Wort- 
länge zur Verfügung. Zur Unterstützung einer Verarbei- 
tung von größeren Datenblöcken können die Adreßzäh- 
ler nach jedem Datentransport automatisch inkremen- 
tiert oder dekrementiert werden. Eine Besonderheit bil- 
den die Adreßzähler 0 in jeder Bank: Unterschreitet der 
Inhalt dieser Zähler beim Dekrementieren den Wert 
Null, so wird der Inhalt des Adreßzählers 1 in den 
Zähler O0 kopiert. Diese Eigenschaft kann dazu verwen- 
det werden, die Funktion eines Schieberegisters zu 
simulieren, ohne die gespeicherten Daten tatsächlich zu 
verschieben. 


3.4 Ein-/Ausgabe 


Zum Datenaustausch mit der Peripherie stehen zwei 
serielle und eine parallele Schnittstelle zur Verfügung. 
Die parallele Schnittstelle ist in erster Linie dafür 
gedacht, mit hoher Geschwindigkeit Daten in einem 16- 
Bit-Mikroprozessorsystem zu übertragen. Die Daten- 
übergabe bedient sich eines „Handshake“-Verfahrens 
(68000-kompatibel) mit weitgehender Steuerung per 
Software, so daß auch andere Abläufe möglich sind. 

Das schnelle serielle Interface vereinfacht die Pro- 
grammierung periodisch ablaufender Vorgänge, wie sie 
für digitale Filterung typisch sind. Mit diesem Interface 
können serielle Daten mit einer Rate von 5 MBit/s über- 
tragen werden. Bemerkenswert daran ist, daß innerhalb 
eines Übertragungszyklus bis zu sieben 16-Bit-Worte 
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eingelesen und bis zu vier 16-Bit-Worte ausgelesen wer- 
den können, wobei Ein- und Ausgabe parallel ablaufen. 

Zusätzlich steht ein langsames serielles Interface zur 
Verfügung, mit dessen Hilfe ein externer Steuerprozes- 
sor auf einfachste Weise veränderliche Parameter des 
Signalprozessors steuern oder überwachen kann. Dieses 
sogenannte IM-Bus-Interface kommuniziert über vier 
Leitungen mit der Peripherie, wobei die Steuerfunktion 
auf einem uC in Software realisiert werden kann, sobald 
nur auf einem E/A-Port eine Eingangs- und drei Aus- 
gangsleitungen zur Verfügung stehen. 


4 Instruktionssatz 


Der Befehlssatz des UDPI 01 umfaßt arithmetische 
Befehle, Akkumulator-, Sprung-, Steuer- und Transport- 
befehle. 

Die Gruppe der arithmetischen Befehle umfaßt die 
Multiplikationsbefehle mit optionaler Addition. Es kön- 
nen ausgeführt werden: Multipliziere 2 Werte, addiere 
oder subtrahiere optional einen Akkumulatorinhalt und 
speichere das Ergebnis in einen Akkumulator. Zusätz- 
lich kann ein Akkumulator aus dem Datenspeicher neu 
geladen und das Ergebnis in die Datenspeicher weg- 
transportiert werden. Bei dieser Aktion kann man zwi- 
schen Abschneiden und automatischem Runden per 
Flag im Status-Register wählen. Diese Instruktionen 
benötigen zur Ausführung 2 (bzw. 3) Zyklen, wobei im 
zweiten Zyklus bereits mit dem Abarbeiten der nächsten 
Instruktionen begonnen wird. So ist es möglich, alle 
vorbereitenden Aktionen wie Register-Vorladen und 
Ergebnis-Transport parallel zum Rechenvorgang auszu- 
führen. Dadurch reihen sich Rechenzyklen mit sequen- 
tiellen Datenblöcken lückenlos aneinander. Die 


Geschwindigkeit des Rechenwerks wird so optimal 
genutzt. Zum besseren Verständnis betrachtet man das 
Beispiel in Bild 5. 

Der Inhalt eines Akkumulators kann verschiedenen 
Operationen unterworfen werden. Diese sind: Absolut- 
wertbildung, Löschung, Komplementierung, arithmeti- 
sches und logisches Schieben, Negieren, Inkrementie- 
ren, Runden auf 16 Bit, sowie der Transport von einem 
zum anderen Akkumulator mit gleichzeitiger Ausfüh- 
rung einiger der aufgeführten Operationen. 

Die Sprungbefehle umfassen unbedingte und bedingte 
Sprünge, Schleifenkontrollinstruktionen, sowie Instruk- 
tionen zur Unterprogrammtechnik. Die letzte Gruppe 
umfaßt Instruktionen, die Datenbewegungen zwischen 
den verschiedenen Funktionsblöcken veranlassen. 


5 Beispielprogramme 
5.1 Rekursives Filter zweiter Ordnung 


Zur besseren Anschauung soll hier ein kurzes Filter- 
beispiel explizit programmiert werden. Das Netzwerk 
des gewünschten Filters ist dargestellt in Bild 2b. Hier 
müssen fünf Multiplikationen ausgeführt werden, vier 
davon mit anschließender Addition. Dazu werden die 
Instruktionen MUL und MAA verwendet (Tabelle 2). 
Doch nun zum Programmablauf: Zu Beginn (nach einem 
Reset oder dem Systemstart) werden zunächst die 
Adreßzähler in Ordnung gebracht, indem sie mit einem 
definierten Wert geladen werden. Durch die Instruktion 
MOV #AC11,4 richtet man sich einen Ringspeicher mit 
der Länge fünf ein. Man kann diesen Speicherbereich 
noch nullsetzen, um einen definierten Ausgangszu- 
stand herzustellen. Das Programm wartet danach in 
einer Endlosschleife auf das Eintreffen von Abtastdaten 





| n-1 Fi n | 


n+2 Nn+3 


ne ee PERL 


n+1 





Ausführung der allgemeinen „Multiplikation mit Addition“-Operation: 
Ali) = Bli) + C(iI)xD(i) 


Verwendete Akkumulatoren und Adreßzähler: 

In jedem Zyklus werden vier Datenwerte verarbeitet. Für die Variable A(i) wird 
in der Beispielsequenz der Akkumulator A verwendet, der über den Adreßzäh- 
ler AC10 in den Datenspeicher 1 gespeichert wird. Akkumulator B dient für die 
Aufnahme des Werts B(i) und wird über AC20 aus dem Datenspeicher 2 
geladen. Die Multiplikanden C(i) und D(i) werden mittels MOVMR AC11,AC21 
aus den beiden Datenspeichern den Multiplizierregistern zugeführt. 





Bild 5. Lückenlose Verarbeitung von Grundoperationen 


Das Diagramm zeigt eine Sequenz von Instruktionen ohne jede Lücke, die die 
folgenden Aktionen beinhalten: 

Zyklus n-1,n Multipliziere MRX mit MRY, addiere den Inhalt des 
Akkumulators B und speichere das Ergebnis in den 
Akkumulator A. Lade Akkumulator B aus dem Datenspei- 
cher 2, adressiert durch AC20 mit Autoinkrement (Zyklus 
n-1). 

(Parallel dazu). Lade die Register MRX und MRY über die 
Adreßzähler AC11 und AC21 mit Autoinkrement. 
Transportiere Akkumulatorinhalt A in den Datenspeicher 
1, adressiert durch AC10 mit Autoinkrement. 

(Parallel dazu). Multipliziere MRX mit MRY, addiere den 
Inhalt des Akkumulators B und speichere das Ergebnis in 
den Akkumulator A. Lade Akkumulator B aus dem Daten- 
speicher 2, adressiert durch AC20, Autoinkrement. 


Zyklus n 
Zyklus n+1 


Zyklus n+1, n+2 
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Tabelle 2. Beispielprogramm: Rekursives Filter zweiter Ord- 
nung 





REKURSIVER FILTERBLOCK 2TER ORDNUNG 


RESET JMP INIT ; INITIALISIERUNG, WIRD NACH 


‘RESET' ANGESPRUNGEN 


HAUPTSCHLEIFE: WIRD PRO ABTASTWERT EINMAL DURCHLAUFEN 


SAMPLE 


MOVMR DAC10,IAC22 ; TRANSPORT X(N-2) UND B2 
; ZUM MULTIPLIZIERER 
MUL A ; A = X(N-2) % B2 
MOVMR DAC10,IAC22 
MAA A ;A=A + X(N-l) X Bl 
MOVP AC10,SDBF »; X(N) EINLESEN, ABSPEICHERN 
MOVMR DAC10,IAC22 
MAA A ; A=A+X(N) * BO 
MOVMR DAC10,IAC22 
MAA A ; A=A + Y(N-2) *% A2 
MOVMR DAC10,AC22 
MAAT A,DAC1O ; A=A + Y(N-l) A Al 
»  Y(N) ABSPEICHERN 
MOV #AC22,TAB ; POINTER FUER KOEFFIZIENTEN 
; WIEDERHERSTELLEN 
NOP ; DARF BENUETZT WERDEN! 
MOVPH SDBF,A ; Y(N) AUSGEBEN 
END JMP $ ; ENDLOSSCHLEIFE 


INITIALISIERUNG: WIRD NACH JEDEM ‘RESET’ AUFGERUFEN 


InIT MOV 


#AC10,4 ; INITIALISIEREN DER 
MOV #AC11,4 ADDRESSCOUNTER AC10, AC11 
MOV #AC22,TAB (MODULO ADDRESSIERUNG) 
UND AC22 (KOEFFIZIENTEN) 
CLR A 
MOV #LC0,5 
LO MOVH DAC10,A ; SAMPLE-SPEICHER GLEICH 
DJNZ LCO,LO NULL SETZEN 
JMP s ; ENDLOSSCHLEIFE 
END 





über das serielle Interface. Sobald diese eintreffen, setzt 
der Prozessor die Programmausführung auf der Adresse 
1 fort. Dort werden zunächst X(n-2) und X(n-1) verar- 
beitet, danach X(n) eingelesen, abgespeichert und ver- 
rechnet. Daran schließt sich die Bearbeitung der Werte 
Y(n-2) und Y(n-1) an. Das Ergebnis Y(n) wird abgespei- 
chert und über das serielle Interface ausgegeben. Danach 
wartet der Prozessor wiederum in einer Endlosschleife 
auf das erneute Eintreffen von Daten, und die Aktion 
beginnt von neuem. Zu Anfang sind die alten Abtast- 
werte natürlich null, sie werden aber in den nächsten 
Zyklen durch eingelesene und berechnete Werte aufge- 
füllt. 

Das Programm benützt die Adreßzähler AC10 und 
AC22. AC22 adressiert die Koeffizienten und wird nach 
jedem Durchgang wieder auf den Anfang der Tabelle 
gesetzt. Die Tabelle enthält der Reihe nach die Koeffi- 
zienten: B2, B1, BO, A2, A1. Der Adreßzähler AC10 wird 
zur Moduloadressierung verwendet: Er wird in einem 
Durchgang sechsmal dekrementiert, wobei er bei jedem 
Unterschreiten von null mit dem Inhalt des Zählers 
AC11 (damit mit vier) geladen wird. Da der Ringspei- 
cher nur fünf Werte enthält, zeigt AC10 nach jedem 
Zyklus eine Adresse tiefer als zu Beginn. 

Die Befehle MOVP und MOVPH benötigen zwei 
Instruktionszyklen, alle anderen nur einen. Damit bean- 
sprucht das Programm inklusive Ein- und Ausgabe 16 
Instruktionszyklen, das sind 1,6 us. Reine Rechenzeit für 
das Filter sind allerdings nur 10 Zyklen, d.h. 1 us. Dies 


zeigt sich dann, wenn man sehr viele dieser Filter hin- 
tereinander schaltet, z.B. um einen Bandpaß hoher Güte 
herzustellen. Die Gesamtausführungsdauer berechnet 
sich nach der Formel: Anzahl der Filtersektionen x 1 us 
+ 0,4 us für Ein-/Ausgabe und 0,2 us für das Wiederauf- 
setzen des Koeffizientenpointers und ein NOP. Zehn 
solcher Filtersektionen (mit je fünf Multiplikationen) 
benötigen eine Rechenzeit von 10,6 us inklusive Ein-/ 
Ausgabe. Damit kann eine zehnfache Filterbank mit 
einer Abtastrate von 94 kHz arbeiten. 

Bild 6 zeigt beispielhaft einen Frequenzgang eines 
digitalen Systems, das sich mit Hilfe eines UDPI 01 und 
dem obigen Programm realisieren läßt. 


5.2 Polynomapproximationen 





Auch andere Algorithmen lassen sich auf die Anwen- 
dung der Grundoperation umformen. Zur Verdeutli- 
chung sei hier eine Methode gezeigt, mit der sich Poly- 
nome mit hoher Geschwindigkeit berechnen lassen. 
Gleichzeitig weist dieses Beispiel auf die Leistungsfä- 
higkeit der Instruktionen MAALT und MABLT hin, mit 
deren Hilfe sich die allgemeine Grundoperation ver- 
wirklichen läßt. Gegeben sei das Polynom: 


Yo taXxtrg XXX Hr... + X 


Durch Umformen nach Horners Schema erhält das 
Polynom eine zur Berechnung günstigere Struktur: 


x) Hu +tXxXx aa t+txXr (le... nat amXxXx)...)) 


Die einzelnen Klammerausdrücke entsprechen damit 
genau der Grundoperation „Multipliziere und Addiere“. 
Die Berechnung eines Polynoms n-ter Ordnung erfordert 
n dieser Grundoperationen. Bei der tatsächlichen Reali- 
sation benötigt man zur Bearbeitung des nächsten Klam- 
merausdrucks das Ergebnis des vorherigen. Dies zwingt 
normalerweise, auf das Multiplikationsergebnis zu 
warten. Man umgeht diese Unzulänglichkeit, indem 
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man das Polynom nach dem Horner-Schema zweiter 
Ordnung in ein gerades und ein ungerades Polynom 
aufteilt: 


WS Htr x a + xl. ns ta %Xx% ...)) 
FR %x (aı = x x ( (an-3 fe An-ı X x?) Fe) 
= P,(x) + PX) 


Durch wechselseitige Berechnung der Klammeraus- 
drücke in den Polynomen P, und P, stehen die benötig- 
ten Zwischenergebnisse immer rechtzeitig zur Verfü- 
gung. Tabelle 3 zeigt einen Programmausschnitt mit den 
verwendeten Adreßzählern. Da obiges Schema n+1 
Multiplikationen mit Additionen benötigt, können Poly- 
nome n-ter Ordnung in 2(n+1) Instruktionszyklen auf 
einem UDPI101 berechnet werden. Die Rechenzeit für ein 
Polynom 10-ten Grades beträgt z.B. nur 2,2 us. Für 
Berechnungen nichtlinearer Funktionen (sin(x), exp(x), 
sqrt(x), usw.) ist der UDPI01 somit bestens gerüstet. 


6 Leistungsmerkmale 


Das wichtigste Kriterium zur Beurteilung eines digita- 
len Signalprozessors ist die Rechenleistung, wobei vor- 
rangig eine Gegenüberstellung verschiedener DSPs 
interessant ist. Üblicherweise dient dazu die Angabe der 
Rechenzeit für bestimmte Aufgaben (z.B. rekursiver 
Block zweiten Grades, transversales Filter n-ter Ord- 
nung, FET, usw.). Doch kann ein Vergleich nach diesen 
Kriterien nur oberflächlich bleiben, da zumeist wenig 
über die Rechengenauigkeit ausgesagt wird und die 
Angaben über die Aufgabe oft zu ungenau sind. Ein 
allgemeines rekursives Filter zweiter Ordnung umfaßt 
fünf Multiplikationen, oft wird jedoch nur von vier 
ausgegangen (d.h. ohne Skalierungsfaktor) oder gar nur 
von zwei Multiplikationen (reiner rekursiver Teil). 
Ohne eindeutige Angaben sind solche Vergleichstabel- 
len wenig aussagekräftig. 

Anhand der in Tabelle 4 aufgeführten Rechenzeiten 
kann ein zukünftiger Anwender leicht den Rechenzeit- 
bedarf eigener Programmentwicklungen abschätzen. 


7 Entwicklungshilfsmittel 


Die Entwicklungsunterstützung für den UDPI101 glie- 
dert sich in zwei Bereiche: Soft- und Hardware. Die 
Software umfaßt einen Crossassembler und einen Soft- 
waresimulator. Beide Programme sind in FORTRAN 
(Standard 77) geschrieben, was eine Übertragung auf 
andere Systeme leicht ermöglicht. Sonderfunktionen, 
speziell für VAX-Systeme (VMS), sind in einem Block 
zusammengefaßt, somit leicht adaptierbar. Der Crossas- 
sembler setzt die symbolische Assemblersprache des 
UDPI01 (siehe Programmbeispiele) in den ausführbaren 
Objektcode um. Der Simulator dient zum Austesten von 
Anwenderprogrammen, bevor sie in einem realen 
System tatsächlich zum Einsatz kommen. Da hierbei alle 
Aktionen des Prozessors simuliert werden, ist es z. B. 
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möglich, Schritt für Schritt alle Aktionen während der 
Programmausführung zu überwachen. Der Software 
steht auf der Hardwareseite eine einfache Emulatorpla- 
tine gegenüber. Der Emulator basiert auf dem Emulator- 
chip UDPI EC, einer Version des UDPI 01 ohne Pro- 
gramm-ROM, dafür mit herausgeführtem Programmbus. 
Die auf Minirechner ausgetesteten Anwenderpro- 
gramme können entweder in PROMs geschrieben wer- 
den oder direkt in den Programmspeicher des Emulator- 
Boards. Damit lassen sich In-Circuit-Emulationen mit 
voller Geschwindigkeit ausführen. 


8 Anwendungsbeispiele 


Aufgrund der hohen Verarbeitungsrate bietet der 
UDPI 01 die Möglichkeit zur Ausführung einer Vielzahl 
von Anwendungen. Um einen Überblick darüber zu 
erhalten, sind an dieser Stelle einige Anwendungsbei- 
spiele ohne Anspruch auf Vollständigkeit angeführt. 


8.1 Sprachverarbeitung, Vocoder 





Ein Vocoder dient zur Umsetzung von Sprachdaten 
auf eine niedere Datenrate. Das Sprachsignal wird nicht 
direkt codiert, sondern es werden bestimmte Modellpa- 
rameter (Filterkoeffizienten, Grundfrequenz usw.) über- 
tragen. Diese ändern sich wesentlich langsamer als die 
ursprüngliche Signalzeitfunktion. Sie können daher mit 
geringerer Frequenz abgetastet und über einen schmal- 
bandigeren Kanal übermittelt werden (Bild 7). Diese 


Tabelle 3. Berechnung eines Polynoms nach dem Horner- 
Schema 2ter Ordnung 





Berechnet wird: 
Zz, = txxZ 
2, =a4.+ xx Zu 
Verwendete Adreßzähler und die damit adressierten Daten: 
AC10: a; ; Koeffizienten 
AC11:x? ; Quadrat des Arguments 
AC20: Z, ; Zwischenwert gerades Polynom 
AC21: Z, ; Zwischenwert ungerades Polynom 
Programmausschnitt: 
MOVMR AC11,AC20 
MAALT B,AC20,DAC10 ZZ, =a+x’xZ, 
MOVMR AC11,AC21 
MAALT B,AC21,DAC10 ZZ, = au +xXxZ 





Tabelle 4. Ausführungszeiten von Testprogrammen 








100faches transversales Filter 20,1 us 
(Akkumulation über 31 Bit, 
inklusive z’’-Funktion und vorbereitende Aktionen) 
rekursives Filter 2ter Ordnung 1,2 us 
(vollständiges Filter: 5 Koeffizienten, 
Akkumulation über 31 Bit, Ergebnis 16 Bit, 
inklusive z"-Funktion und vorbereitende Aktionen) 
10 Filter-Sektionen rekursiver Filter 2ter Ordnung 10,2 us 
(siehe oben) 
Polynom 10ter Ordnung 2,2 us 
(11 Koeffizienten mit je 16 Bit) 
Sinusfunktion mit 14 Bit Genauigkeit 2,4 us 
komplexe FFT mit 64 Punkten 424,0 us 











Bauelemente 








digitalisiertes 
Sprachsignal 







Übertragungs- 
Signal 







2,A kBit/s 


Übertragungs- i 

Signal digitalisiertes 
Sprachsignal 

2,4 kBit/s 64 kBit/s 


Bild 7. Sprachübertragung mit niederer Bitrate 
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Bild 8. Ein Spektrum-Analysator mit dem UDPI 01 





Codierung kann eine Datenverringerung bis zu einem 
Faktor 30 liefern. Auf der Empfängerseite dienen die 
übermittelten Parameter zur Steuerung der Sprachsyn- 
these. Mit dem UDPI01 kann ein Vocoder-System aufge- 
baut werden, das außer einem UDPI01 selbst noch einen 
Steuerprozessor (z.B. 68000), einen Speicher und E/A- 
Bausteine benötigt. Die Eigenschaften dieses LPC-Voco- 
ders sind: 

- Voll-Duplex-Vocoder 

— Rahmenlänge 200 Abtastwerte (25 ms) 

— Abtastrate 8 kHz 

—- 10 LPC-Koeffizienten 

— 140 Werte der Autokorrelationsfunktion. 


8.2 Spektrum-Analysator 


Ein System mit je einem D/A- bzw. A/D-Umsetzer und 
einem UDPI01 ist in der Lage, eine komplette Spektral- 
analyse durchzuführen. Die Aktionen des Signalprozes- 
sors beinhalten dabei das „Windowing‘“, um Leckeffekte 
bei der FFT zu mindern, die eigentliche 64-Punkte-FFT 
und eine nachfolgende Verarbeitung, welche die Ampli- 
tudenwerte extrahiert (Bild 8). 


8.3 Modem 


Der UDPI 01 kann als 1,2-kBit-FSK-Modem program- 
miert werden (Bild 9). Es umfaßt dann per Programm 
den FSK-Modulator, das Sendefilter, das Empfangsfilter, 
den Amplitudendetektor, den Frequenzdetektor und 
den Demodulator. 


8.4 Echounterdrückung 


Eine Echounterdrückung ist ein typischer Anwen- 
dungsfall eines adaptiven Filters. Hierzu ein Beispiel 
aus der Telekommunikation. Auch dort setzen sich 
immer mehr digitale Systeme durch. In der Zukunft 
wird die Digitalisierung über die Teilnehmerleitung bis 
zum Teilnehmer geführt werden. Für die nahe Zukunft 
wird für die Digitalisierung des Telefonnetzes davon 
ausgegangen, daß die vorhandenen Kabel weiter ver- 
wendet werden. Damit auf der 2-Draht-Teilnehmerlei- 
tung eine fehlerfreie Übertragung in beiden Richtungen 
möglich ist, muß das von einem Teilnehmer zur Ver- 
mittlungsstelle laufende und dort teilweise reflektierte 
Signal (Echo) so kompensiert werden, daß im Empfangs- 
kanal nur noch das Sendesignal des anderen Teilneh- 
mers übrigbleibt. Da die Übertragungseigenschaften der 
einzelnen Teilnehmerleitungen unterschiedlich sind 
und außerdem noch zeitlichen Schwankungen unterlie- 
gen, muß das Kompensationsverfahren adaptiv sein, 
d.h. die einzelnen Filterkoeffizienten des Echokompen- 
sators müssen sich an die Leitungseigenschaft anpassen. 
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Bild 9. Ein UDPI 01 als 1,2-kBit-FSK-Modem 
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Bild 11. Schemazeichnung eines DTMF-Empfängers 








Diese Aufgabe kann ein als Echounterdrücker program- 
mierter UDPI 01 übernehmen (Bild 10). 


8.5 DTMF-Empfänger 


Ein UDPI 01 kann verwendet werden, um aus dem 
digitalisierten Sendesignal eines Telefonteilnehmers die 
entsprechenden Frequenzanteile herauszufiltern und 
daraus den Tastencode zu ermitteln (Bild 11). Die 


gesamte Verarbeitung umfaßt mehrere Hoch-, Tief- und 
Bandpaßfilter, Bandsperren, Begrenzer, Gleichrichter 
und Diskriminatoren sowie eine Entscheidungslogik. 
Mehrfach benötigte Funktionsblöcke werden dabei im 
Zeitmultiplex durchlaufen (Abtastrate: 10 kHz). 


8.6 Audio-Verarbeitung 


Interne Wortlängen und die Verarbeitungsgeschwin- 
digkeit des UDPI 01 sind ausreichend konzipiert, um 
eine komplette Tonverarbeitung in TV-Geräten oder 
auch in HiFi-Radio-Systemen zu übernehmen. Mit ent- 
sprechendem Programm könnte ein UDPI 01 z.B. fol- 
gende Aufgaben übernehmen (Bild 12): 

— Dematrizierung 

— sin(x)/x-Entzerrung 

— Lautstärke 

— Höhen- und Tiefenregelung 

— Physiologie 

— Balance 

— Stereo-Basisbreite 

— Pseudo-Stereo 

— Stereo/Mono-Umblendung. 
Zusätzlich kann eine Reihe von Nichtaudiofunktio- 
nen softwaremäßig realisiert werden: 

— Stereoerkennung 

— Erkennung Stereo/zweisprachig/Mono für TV-Geräte 

— Verkehrsfunkdecoder für Autoradio 

— Stereo-PLL usw. 
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Wilfried Taetow 


CMOS-Bausteine für 


1. Teil 


mikroprogrammierbare Signalprozessoren 


Die CMOS-Technologie erobert eine weitere bipolare 
Domäne - die schnelle digitale Signalverarbeitung. 
Eine Familie aus sechs CMOS-Bausteinen ermöglicht 
den Aufbau von mikroprogrammierbaren Signalpro- 
zessoren, die im Hinblick auf Geschwindigkeit und 
Leistungsfähigkeit bisherige bipolare Systeme weit 
übertreffen. Durch jüngste Fortschritte in der Halblei- 


Status quo 


Ein typisches digitales Signalverarbeitungssystem 
führt einen Algorithmus mit Zahlen durch, die aus ana- 
logen Abtastwerten stammen. Der Algorithmus wieder- 
holt viele Male Instruktionen, die komplizierte Berech- 
nungen mit diesen Daten durchführen. Mit der Lei- 
stungsfähigkeit der Algorithmen wächst natürlich auch 
die Anzahl der Berechnungen, oft sogar überproportio- 
nal. Dies erfordert eine Durchsatzrate (Operationen pro 
Zeiteinheit), die mit Standard-Mikroprozessoren nicht 
zu erreichen ist. In der Tat müssen alle Funktionsblöcke 
eines Signalprozessors wie Programm-Sequenzer, 
Adreß-Generator und arithmetische Elemente die glei- 
che hohe Arbeitsgeschwindigkeit aufweisen. 

Den grundsätzlichen Aufbau eines Signalprozessors 
zeigt Bild 1. Der Programm-Sequenzer steuert den 
Befehlsfluß innerhalb des Prozessors. Er bestimmt, wel- 
che Adresse als nächstes an den Programmspeicher 
gegeben wird. Die Speicherinhalte steuern dann die 
übrigen Bausteine des Systems. Außerdem ist der 
Sequenzer für Verzweigungen, Unterprogrammsprünge 
und Interrupts verantwortlich. Außer auf Schnelligkeit 
sollte der Sequenzer auch daraufhin entworfen sein, 
Schleifen ohne Leerzeiten abzuarbeiten und natürlich 
auf keinen Fall das Gesamtsystem verlangsamen. Der 
Adreß-Generator spezifiziert die Speicherplätze im 
Datenspeicher, der alle Ein- und Ausgabedaten sowie 
Konstanten (Koeffizienten) enthält. Da viele Algorith- 
men, die in der digitalen Signalverarbeitung verwendet 
werden, eine komplizierte Adreß-Struktur haben sowie 
einen schnellen Datentransfer zu und von den Arithme- 


tertechnologie gerät die digitale Signalverarbeitung 
mehr und mehr ins Blickfeld der Entwicklungsinge- 
nieure. Systeme zur digitalen Verarbeitung von Ton-, 
Bild- oder Funksignalen, die bislang ausschließlich 
theoretisch entworfen werden konnten, sind durch die 
Bereitstellung von immer komplexeren Bausteinen in 
den Bereich des Möglichen gerückt. 


tik-Bausteinen benötigen, ist ein flexibler Adreß-Genera- 
tor hoher Geschwindigkeit unbedingt notwendig. 

Die eigentliche Rechentätigkeit wird von arithmetisch 
logischen Einheiten (ALU), Multiplizierern und Barrel- 
Shiftern geleistet. Deren Durchsatzrate ist eine Funktion 
von Geschwindigkeit interner Architektur und Ein-/ 





Adressen 











Instruktionen 






Instruk- 
tionen 


Bedingungen 


Interrupts 






Bedingungen 





Bedingungen 


Bild 1. Grundsätzliche Struktur eines Signalprozessors, wie 
sie auch mit Bausteinen der Word-Slice-Familie realisiert 
werden kann 
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Ausgabestruktur. Selbstverständlich müssen sie die 
binäre Arithmetik schnell, genau und effizient beherr- 
schen. 

Digitale Signalprozessoren, die alle diese Elemente 
auf einem einzigen Chip vereinigen, sind für preissensi- 
tive Anwendungen im unteren Leistungsbereich 
gedacht. Uneffiziente Schleifenverarbeitung, Ein-/Aus- 
gabeengpässe, eingeengte Instruktionsworte und unfle- 
xible Architektur beeinträchtigen erheblich die Durch- 
satzrate. Bipolare Bit-Slice-Architekturen besitzen die 
notwendige Geschwindigkeit und Flexibilität für eine 
hohe Leistungsfähigkeit. Sie leiden aber unter der hohen 
Anzahl der notwendigen Bausteine, verbrauchen eine 
enorme Leistung und beanspruchen nicht zuletzt einen 
erheblichen Platz. Zudem vergrößert die notwendige 
externe Beschaltung mit SSI- und MSI-Bausteinen die 
Programmierungskomplexität und kann zu wahren 
„Verstrickungen“ im Signalfluß führen. 

Die spezifischen Eigenschaften solcher Systeme las- 
sen sich auf die individuellen Bausteine zurückverfol- 
gen. So können z.B. die gängigen Programm-Sequenzer 
keinen Interrupt auf dem Chip behandeln oder gar spei- 
chern. Sie können nur einen recht begrenzten Pro- 
grammspeicher bedienen und haben eine bescheidene 
Stack-Tiefe. Was aber am schlimmsten ist, sie sind in 
ihrer Geschwindigkeit nicht den fortschrittlichen Arith- 
metikbausteinen angepaßt und begrenzen damit die 
Systemgeschwindigkeit. Komplette Adreß-Generatoren 
gibt es bis jetzt nur für spezielle Algorithmen (FFT). 

Universelle Adreß-Generatoren z.B. für 16 Bit müssen 
aus vier ALU-Bausteinen mühsam aufgebaut werden. 
Momentan erhältliche Multiplizierer und ALUs benöti- 
gen die Unterstützung von externen Schaltkreisen. Mul- 
tiplizierer brauchen sie für offsetfreie Rundung, Forma- 
tierung, Rückkopplung und Speicherung. Multiport- 
ALU-Bausteine verbrauchen einige Watt, und ihre Funk- 
tionalität ist ohne eine beträchtliche Anzahl von SSI- 
Schaltkreisen nur sehr begrenzt. 


Neue Bausteine — neue Möglichkeiten 
Die „Word-Slice-Familie“ 


Seit ca. zwei Jahren beschäftigt sich die Firma Analog 
Devices mit Bausteinen für die digitale Signalverarbei- 
tung. Mit Standardprodukten wie Multiplizierern und 
Multiplizierer-Akkumulatoren in CMOS-Technik wurde 
der technologische Grundstein für komplexere Funk- 
tionseinheiten gelegt. Der zweite Schritt war die Weiter- 
entwicklung der Halbleitertechnologie von einem 5-um- 
Prozeß mit einer Metallschicht zu einem 2-um-Prozeß 
mit zwei Metallschichten, was eine Verdopplung der 
Geschwindigkeit und Verkleinerung der Chip-Fläche 
mit sich brachte. Jetzt war der Weg frei für die Entwick- 
lung der Word-Slice-Familie. Der Name ist abgeleitet 
von Bit-Slice-Bausteinen, wie sie seit Jahren zum Auf- 
bau von mikroprogrammierbaren Signalprozessoren ver- 
wendet werden. Die beiden wesentlichsten Unter- 
schiede sind jedoch CMOS- statt bipolarer Technologie 
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Bild 2. Das Blockschaltbild des Mikroprogramm-Sequenzers 
ADSP-1401 zeigt einige Besonderheiten, die zum ersten Mal 
auf einem solchen Baustein realisiert wurden 











und Wortbreiten von 16 bzw. 32 Bit statt 4 Bit pro 
Baustein. Die Familie besteht aus einem Programm- 
Sequenzer, der einen sehr großen Adreß-Raum ansteuern 
kann, einem Adreß-Generator, der universell verwend- 
bar ist, einer arithmetisch logischen- und Schiebeeinheit 
(ALSU), die einen Barrel-Shifter parallel zur ALU ent- 
hält und einen Multiplizierer-Akkumulator, der um 
einige zusätzliche Funktionen erweitert ist. Zwei wei- 
tere Bausteine sind für die Verarbeitung von Gleitkom- 
mazahlen vorgesehen. Ein ALU-Baustein und ein Multi- 
plizierer können sowohl einfache als auch doppeltge- 
naue Operationen durchführen. Alle sechs Bausteine 
sind von ihrer Struktur und ihrem Timing her so ausge- 
legt, daß ein Durchsatz von 10 Mio. Operationen pro 
Sekunde (10 MOPS bzw. 10 MFLOPS) auf jeden Fall 
gewährleistet ist. Neben ihrer hohen Durchsatzrate und 
großen Wortbreite bietet die Word-Slice-Familie die Fle- 
xibilität zum Aufbau von universellen digitalen Signal- 
verarbeitungssystemen. Mit anderen Worten: Diese Bau- 
steine können zu Prozessoren konfiguriert werden, die 
im Hinblick auf Durchsatz optimiert sind, und zwar 
nicht nur für eine spezielle Anwendung, sondern für ein 
breites Spektrum von Algorithmen. (Im 2. Teil dieses 
Beitrags werden verschiedene Architekturen auf ihre 
Leistungsfähigkeit untersucht.) Ohne daß Kompromisse 
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bei der Flexibilität eingegangen wurden, sind bereits 
viele Funktionen auf den Chips mit integriert, die früher 
durch externe Hardware realisiert werden mußten. Die 
konsequente Reduzierung dieser verbindenden Logik 
beschleunigt den Systementwurf und spart außerdem 
Platz und Leistung. 


Alles unter Kontrolle 


Das erste Mitglied der Familie ist der ADSP-1401, ein 
16-Bit-Mikroprogramm-Sequenzer (Bild 2) mit einer 
Zykluszeit von 90 ns. Dieser 48polige Baustein spricht 
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Bild 3. Universell verwendbar für alle Algorithmen der 
digitalen Signalverarbeitung ist der Adreß-Generator 
ADSP-1410 











einen größeren Adreßraum an als alle anderen verfügba- 
ren Sequenzer und ist der einzige, der in der Lage ist, 
Interrupts vollständig auf dem Chip zu speichern und zu 
verarbeiten. Der Sequenzer bestimmt die aufeinander- 
folgenden Adressen auf der Basis von Instruktionen, 
Bedingungen und Interrupts, die ihm zur Verfügung 
gestellt werden. Jede Adresse, die er erzeugt, kann die 
momentane Adresse plus 1, eine absolute oder relative 
Adresse, die aus einer externen Quelle stammt, einer 
von 10 maskierbaren und priorisierten Interrupt-Vekto- 
ren, eine Sprungadresse aus dem internen RAM oder 
eine Adresse vom Top-of-Stack sein. Der Befehlssatz des 
Sequenzers ist in einem 7-Bit-Mikrocodewort enthalten, 
das 12 bedingte Befehle einschließlich Ein-, Zwei- und 
Dreiweg-Verzweigungen, Unterprogramm-Verzweigun- 
gen und Rückkehrbefehle enthält. Diese 12 Instruktio- 
nen können auf eine von vier Bedingungen ansprechen: 
Ein unbedingter Sprung; ein Sprung, wenn einer der 
vier internen Zähler unter Null herabzählt; oder die An- 
bzw. Abwesenheit eines Flags von einem externen Con- 
dition-Code-Selector. Trotz dieser eindrucksvollen Ver- 
zweigungsmöglichkeiten ist die interessanteste Eigen- 
schaft des Sequenzers sein 64X16-Bit-RAM. Dieser 
Speicherbereich kann einer Vielzahl von Anwendungen 
dynamisch zugeordnet sein, einschließlich Stack, 
Sprungadressenspeicher und Zählerzwischenspeicher. 
Dem RAM kann komplett eine Funktion zugewiesen 
(z. B. 64 Worte, tiefer Stack) oder es kann auf zwei 
Funktionen aufgeteilt werden (z.B. 20 Worte Stack, 44 
Sprungadressen). Der Stack-Bereich beginnt bei der 
Speicherzelle 0 und reicht bis zu der Zahl, auf die der 
Stack-Limit-Pointer zeigt. Push-Befehle, die den Stack- 
Pointer über das spezifizierte Limit hinausschieben, 
erzeugen automatisch einen Interrupt. 


Die Fähigkeit des Sequenzers, Interrupts auf dem Chip 
zu speichern und zu verarbeiten, spart sowohl Platz als 
auch Leistung und umgeht die inhärenten Verzögerun- 
gen externer Schaltkreise. Alle zehn Interrupts sind 
maskierbar sowie priorisiert und werden in dem ihrem 
Auftreten folgenden Taktzyklus bearbeitet. Acht bedie- 
nen externe Quellen, die anderen zwei stammen aus 
dem Chip selbst (Stack-Überlauf und Zähler unter Null). 


Vier abwärtszählende 15-Bit-Zähler dienen zur Ver- 
folgung von Schleifen und Ereignissen. Sollte ein Pro- 
gramm fünf oder mehr Zähler benötigen, so kann der 
Zählerstand vorübergehend im RAM ausgelagert wer- 
den. Anders als viele andere Sequenzer kann der ADSP- 
1401 zum Laden von Befehlen aus externen Programm- 
speichern in schreibfähige Mikroprogrammspeicher 
(„Writable Control Store“) benutzt werden. Solche Spei- 
cher sparen Leistung und Kosten, da sie es dem Sequen- 
zer erlauben, seine Befehle direkt aus einem schnellen 
RAM zu beziehen, während der Großteil des Programms 
in langsamen und billigen ROMs gespeichert ist. Ebenso 
einzigartig ist die Möglichkeit, die Inhalte aller internen 
Register von außen zu lesen und in sie hineinzuschrei- 
ben, was besonders bei der Programmentwicklung eine 
wichtige Eigenschaft ist. 
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Komplett, aber universell 


Das zweite Mitglied der Word- 
Slice-Familie ist der Typ ADSP- 
1410, ein schneller universeller 
Adreß-Generator. Mit seiner 16- 
Bit-Dual-Port-Architektur, seiner 
Zykluszeit von 70 ns und seiner 
internen Registerstruktur ist dieser 
48polige CMOS-Baustein der erste, 
der all die „kniffligen‘ Adressie- 
rungen in der digitalen Signalver- 
arbeitung bewältigt (Bild 3). So er- 
zeugt er leicht alle Adressen für 
den Datenspeicher, die bei Routi- 
nen, wie der schnellen Fourier- 
Transformation, digitalen Filte- 
rung und Matrizenoperationen, be- 
nötigt werden. In einem einzigen 






Befehlszyklus bewältigt er vier 
fundamentale Operationen. Er ALU 
kann eine Adresse zum Datenspei- (B) ALU (A) 


cher schicken, sie intern mit einem 
Offset-Wert modifizieren, um die 
nächste Schreib- oder Leseadresse 
zu berechnen, den ausgegebenen 
Wert mit einem vorgegebenen ver- 
gleichen, und Programmschleifen, 
basierend auf diesem Vergleich, 
reinitialisieren. Erfordert eine An- 
wendung einen größeren Adreß- 
Bereich als 64 K Worte, so kann 
der Anwender zwei Adreß-Genera- 
toren ohne Geschwindigkeitsein- 
buße kaskadieren (1 G Worte). Dies 
wird dadurch ermöglicht, daß das 
MSB des Y- und D-Ports speziell 
dafür vorgesehen ist, Übertrags- 
oder Gleichheits-Flags zwischen 








Bild 4. Der ADSP-1201 vereint eine 16-Bit-ALU und einen Barrel-Shifter auf 
einem einzigen Baustein 
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beiden Chips zu übertragen. Alter- 
nativ kann ein einzelner Adreß-Ge- 
nerator dieselbe breite Adressie- 
rung leisten, indem er zwei Zyklen pro Adresse verwen- 
det. Der ADSP-1410 enthält 30 Register mit jeweils 16 
Bit, die in vier Gruppen aufgeteilt sind. 16 Adreß-Regi- 
ster (R), vier Initialisierungsregister (I), sechs Offset- 
Register (B) und vier Vergleichsregister (C). Das 10 Bit 
breite Instruktionswort enthält Befehle für Schleifen, 
Adreß-Modifikation, Registerlesen oder -schreiben und 
interne Transfers. So wird z.B. folgende Befehlszeile in 
einem einzigen Zyklus abgearbeitet. 


Y:= Ru; IFR„n = G,THEN R„:= 1; ELSER„ : = Ru + Bn 


Alle Befehle kommen normalerweise aus externen Quel- 
len (Mikroprogrammspeicher). Der Adreß-Generator 
verfügt jedoch über ein „Alternate Instruction Register“ 
(AIR), dessen Inhalt die externe Instruktion ersetzt, 
sobald es über „AIR ENABLE“ aktiviert wird. Der Sinn 
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dieses Registers ist es, Mikrocode einzusparen. So kann 
z.B. eine häufig verwendete Instruktion ins AIR geladen 
und später durch ein einziges Bit aufgerufen werden. 
Auch wenn mehrere Adreß-Generatoren von demselben 
Mikrocode angesteuert werden, kann es notwendig sein, 
einen einzelnen Generator vorübergehend einen abwei- 
chenden Befehl ausführen zu lassen. 

Daß auch die speziellen Bedürfnisse einer FFT 
berücksichtigt wurden, zeigt der „Bit-Reverse-Multi- 
plexer“. 


Addieren und Schieben 


Das dritte Familienmitglied, der ADSP-1201, ist eine 
arithmetisch-logische Schiebeeinheit (ALSU). Mit die- 
sem Chip wird eine Lücke geschlossen, die Entwicklern 
von Hochleistungssystemen viel Kopfzerbrechen berei- 
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tet hat. In einem einzigen Taktzyklus von 60 ns kann sie 
zwei 16-Bit-Operanden verarbeiten und das Ergebnis 
ausgeben. Dieser Baustein ist nicht nur schnell, sondern 
außerdem mit einem unabhängig steuerbaren 32-Bit- 
Barrel-Shifter, zwei je 8 Worte tiefen Registern, zwei 
Eingangsregistern und einem Prioritäts-Codierer verse- 
hen (Bild 4). Das 36 Bit breite Befehlswort gibt dem 
Entwickler völlige Kontrolle über die interne Hardware. 
Das Instruktionswort ist jedoch in feste, wohldefinierte 
Felder aufgeteilt, so daß der Anwender je nach Aufgabe 
eine mehr oder weniger große Anzahl von Bits fest 
verdrahten kann und somit Mikrocode-Wortbreite spart. 
Die Hauptelemente des Chips sind die arithmetisch- 
logische Einheit und der Barrel-Shifter. Jedes dieser 
beiden Elemente arbeitet völlig unabhängig voneinander 
und zur gleichen Zeit. Jedes kann direkt mit den Ein- 
gangsdaten arbeiten oder das Ergebnis der ALU kann als 
Eingangswert für den Barrel-Shifter dienen und umge- 
kehrt. Ebenso kann sich der Ausgangswert des Chips aus 
dem Ergebnis der einen als auch der anderen Einheit 
ergeben. Anders als übliche Bausteine bietet der ADSP- 
1201 die Möglichkeit, Daten mit gleicher Effizienz vor 
und nach einer arithmetisch-logischen Operation zu 
verschieben. 

Selbstverständlich beherrscht die ALU alle arithmeti- 
schen und logischen Standardfunktionen. Das Ergebnis 
der Operation kann jedoch im selben Zyklus noch um 1 
Bit nach links oder rechts verschoben werden. Weiter- 
hin können die meisten Operationen in Abhängigkeit 
von einem internen Flag (IFLG) durchgeführt werden. 
Dieses Flag wiederum kann von einem der folgenden 
Flags gesetzt werden: 

Überlauf (OVF), negativ (NEG), Null (Z), Vorzeichen 
(SGN), Bit-Test oder einer der Block-Floating-Point- 
Flags. 

Zwei Arten von bedingten Operationen sind möglich. 
Im ersten Fall führt der Chip entweder einen Befehl oder 
keinen Befehl (NOP) aus, im zweiten Fall kann er aber 
auch statt NOP die inverse Instruktion ausführen, z.B.: 


IF Flag THEN A + B ELSE NOP oder 
IF Flag THENA + BELSEA -B 


Diese zweite Möglichkeit der bedingten Befehle kann 
viele Zyklen in arithmetischen Berechnungen einspa- 
ren. Zum Beispiel, wie im 2. Teil besprochen wird, spie- 
len Additionen mit darauffolgenden Schiebeoperatio- 


nen in Abhängigkeit von Block-Floating-Point-Flags bei 
der FFT eine entscheidende Rolle. Eine effiziente Block- 
Floating-Point-Arithmetik kann den Signal/Rauschab- 
stand um einige dB verbessern und Überlaufprobleme 
vermeiden. 

Die Kombination von arithmetischen Operationen 
und bedingter Verschiebung beschleunigt ebenfalls 
Divisions-Algorithmen, die jeweils in 16 Zyklen durch- 
geführt werden können. Seine überragende arithmeti- 
sche Leistungsfähigkeit erlangt dieser Chip jedoch erst 
durch den bereits erwähnten Barrel-Shifter. Zur 
Anschauung stelle man sich ein 48 Bit breites Feld vor, 
das in drei Segmente ä 16 Bit aufgeteilt ist. Der Operand 
B sei in Segment 1 und 3 enthalten, der Operand A im 
mittleren Segment 2. Über das gesamte Feld kann nun 
eine 16 Bit breite Maske in einem Schritt beliebig nach 
rechts oder links verschoben werden. Eine geschickte 
Wahl sowohl der Quellregister als auch der Shift-Steue- 
rung ermöglicht eine Vielzahl von Operationen ein- 
schließlich arithmetischer und logischer Verschiebun- 
gen um n Bit, automatischer Normalisierung von Ein- 
gangswerten, Rotationen, Block-Floating-Point-Arith- 
metik und Skalierung. 

Zwei unabhängige, je 8 Wort tiefe und getrennt steuer- 
bare Registergruppen unterstützen ALU und Barrel-Shif- 
ter. Jedes Register kann separat gelesen oder geschrieben 
werden. Da außerdem jede Operation, die mit dem A- 
Eingang der ALU durchgeführt werden kann, ebenso mit 
Eingang B möglich ist, bedingt diese Registerstruktur 
keinerlei programmtechnische Restriktionen. Anders als 
bei Bausteinen mit nur einer einzigen Registergruppe ist 
es hier sehr wohl möglich, zwei Operanden aus dem 
Chip-Speicher in einem Zyklus zu verarbeiten. 

Da jeder numerische Prozessor sowohl mit vorzei- 
chenbehafteten als auch mit vorzeichenlosen Zahlen 
rechnen soll, sind alle Funktionseinheiten des Chips in 
der Lage, sowohl mit 2-Komplement als auch mit reinen 
Betragszahlen zu arbeiten. So ermittelt z.B. der Priori- 
täts-Codierer das signifikanteste Bit eines Wortes in den 
beiden Formaten. Dadurch kann dessen Ausgang den 
Barrel-Shifter steuern und Zahlen beider Formate auto- 
matisch in einem Zyklus normieren. Außerdem kann er 
die betragsmäßig größte Zahl in einem Datenfeld ermit- 
teln (siehe Teil 2). Mit wenigen Ausnahmen besteht 
auch die Möglichkeit, alle ALU- und Barrel-Shift-Opera- 
tionen so zu erweitern, daß mit zwei Bausteinen im 
Tandembetrieb 32-Bit-Daten verarbeitbar sind. 
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CMOS-Bausteine für 


2. Teil 


mikroprogrammierbare Signalprozessoren 


'Für den Aufbau von digitalen Signalprozessoren ste- 
hen jetzt auch Funktionsblöcke zur Verfügung, die in 
.CMOS-Technologie gefertigt sind. Diese eignen sich 
für die Anwendung in mikroprogrammierbaren Syste- 
men zur Signalverarbeitung, die in Hinblick auf 
Geschwindigkeit und Leistungsfähigkeit Konzepte mit 
bipolaren Bausteinen sogar noch übertreffen. Nach- 
dem im ersten Teil dieses Beitrages das Familienkon- 


„big MAC“ 


Familienmitglied Nr. 4 ist der ADSP-1101, ein erwei- 
terter Multiplizierer-Akkumulator (EMAC: „Enhanced 
Multiplier Accumulator‘“). 

Er ist ebenso wie ALSU ein Dreitor-Baustein, der 
daraufhin optimiert ist, die sonst notwendige externe 
Hardware auf ein Minimum zu reduzieren (Bild 5). 
Dieser Chip in einem 96poligen Pin-Grid-Gehäuse 
besitzt eine größere Leistungsfähigkeit als alle früheren 
Lösungen. Seine charakteristischen Eigenschaften sind 
seine Eingangsregisterstruktur, seine anpassungsfähige 
Architektur, seine extensiven internen Busleitungen 
und seine Rundungs- und Schiebemöglichkeiten. Die X- 
und Y-Eingänge des EMAC besitzen je zwei unabhängig 
adressierbare Register. Diese Speicher auf dem Chip 
sparen Bus-Zugriffszeit in Anwendungen, die mit dop- 
pelter Genauigkeit, oder komplexen Zahlen arbeiten. 
Außerdem können beide Eingänge je zwei Zahlen in 
einem einzigen Taktzyklus einlesen. 

Der 16x 16-Bit-Parallelmultiplizierer des EMAC mit 
seinen zwei zusätzlichen je 40 Bit breiten Akkumulato- 
ren verarbeitet 2-Komplement- und reine Betragszahlen 
sowohl untereinander als auch gemischt. Eine Format- 
Adjust-Vorrichtung erlaubt die Eliminierung des redun- 
danten Vorzeichenbits bei 2-Komplement-Produkten 
durch Linksverschiebung. Die Kombination all dieser 
Fähigkeiten führt zu einer enorm verbesserten Durch- 
satzrate bei so bekannten Algorithmen wie der FFT. 

Die zwei 40 Bit breiten Akkumulatoren des EMAC 
sind in je zwei 16-Bit- und ein 8-Bit-Register aufgeteilt. 
Die Breite von 40 Bit ist besonders bei solchen Alegorith- 
men vorteilhaft, die eine Vielzahl von Akkumulationen 
enthalten wie z.B. lange FIR-Filter. Zwischensummen 
dürfen hier ohne weiteres bis zu 40 Bit groß werden. Das 
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zept der Word-Slice-Bausteine, die verwendete Tech- 
nologie sowie der Mikroprogramm-Sequenzer ADSP- 
1401, der universelle Adreßgenerator ADSP-1410 und 
die arithmetisch-logische Schiebeeinheit ADSP-1201 
vorgestellt wurden, zeigt der vorliegende abschlie- 
Bende Teil den erweiterten Multiplizierer-Akkumulator' 
ADSP-1101, den Gleitkomma-Multiplizierer ADSP- 
3210 und die Gleitkomma-ALU ADSP-3220. 


Vorhandensein von zwei Akkumulatoren vereinfacht 
enorm alle Operationen mit komplexen Zahlen. Sie kön- 
nen aber auch dazu benutzt werden, Zwischenergeb- 
nisse abzuspeichern. Weiterhin hat jeder Akkumulator 
ein Überlauf-Flag, das gesetzt wird, sobald das signifi- 
kante Wort in das 8-Bit-Extension-Register hinein- 
wächst. Die interne Busstruktur des EMAGC ist unge- 
wöhnlich flexibel. So ermöglicht sie z.B. das vorherige 
Laden von Daten vom X-Eingang in ein Y-Eingangsregi- 
ster und das vorherige Laden des Akkumulators vom Y- 
Eingang. Dieses kann dazu benutzt werden, eine Drei- 
Operanden-Rechnung wie D: = A x B+ Gin einem 
einzigen Zyklus durchzuführen. Eine andere signifi- 
kante Eigenschaft dieser internen Busstruktur ist der 
Rückkopplungspfad, auf dem akkumulierte Resultate 
zum Y-Eingang transferiert werden können, um z.B. 
polynomale Reihenentwicklungen für transzendentale 
Funktionen durchzuführen. Der 16 Bit breite Ausgang 
dieses Bausteins arbeitet mit einer 50-ns-Taktrate, um 
beide Anteile des 32-Bit-Produkts in einem 100-ns- 
Systemtakt ausgeben zu können. Der Ausgang des Akku- 
mulators kann zuvor noch um 1 Bit nach rechts oder 
links verschoben werden. Linksverschiebungen sind 
nützlich zur Normierung von Zweier-Komplementzah- 
len; Rechtsverschiebungen dienen zur Formatierung 
von Block-Fließkomma-Zahlen. 

Natürlich kann der EMAGC auf Wunsch auf das 14., 15. 
oder 16. Bit runden, je nachdem, welche Verschiebun- 
gen durchgeführt werden. Alle Rundungen sind Offset- 
frei, d.h. liegt die zu rundende Zahl genau in der Mitte, 
so wird nach einem statistischen Verfahren gleich oft 
auf- und abgerundet. Diese Eigenschaft macht sich 
gerade bei Algorithmen wie der FFT positiv bemerkbar. 
Rundungsschemata mit Offset, wie man sie in Multipli- 
zierern der ersten Generation findet, täuschen nämlich 
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Bild 5. Zusätzliche Funktionen und Eigenschaften machen 
aus dem ADSP-1101 einen universellen Multiplizierer/Akku- 
mulator 
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einen nicht vorhandenen Gleichspannungsanteil bei der 
Spektralanalyse vor. Die eingebaute Sättigungslogik 
kann in Verbindung mit dem Überlauf-Flag das gefürch- 
tete „Wrap-Around“ von Zweier-Komplementzahlen 
verhindern. Wächst z.B. eine positive Zweier-Komple- 
mentzahl durch mehrfache Akkumulation über das ver- 
einbarte Zahlenformat (32 Bit) hinaus und werden die 
acht Zusatzbit nicht benutzt, so kehrt sie sich in eine 
negative Zahl um. Mit seiner bedingungsabhängigen 
Sättigungslogik erzeugt der Chip automatisch den posi- 
tiven bzw. negativen Bereichsendwert und verhindert so 
Großsignalschwingungen in rekursiven Berechnungen. 


Gleitkomma auch für Signalverarbeitung 


War die Gleitkommaverarbeitung bisher hauptsäch- 
lich auf Universalrechner beschränkt, so dringt sie nun 
mehr und mehr auch in die digitale Signalverarbeitung 
vor. Überlaufprobleme, Rundungsrauschen, Grenz- 
zyklen, zu geringe Dynamik sind einige der Sorgen, die 
den Entwicklern von digitalen Signalverarbeitungssy- 
stemen immer wieder Kopfzerbrechen bereiten. Wäh- 
rend z.B. ein Filteralgorithmus in Fortran schnell ent- 
worfen ist und in der ersten Simulation hervorragende 
Eigenschaften zeigt, bringt die nächste Simulationsstufe 
unter Berücksichtigung der zur Verfügung stehenden 
Hardware meist die große Ernüchterung. Jetzt wird um 
jedes Bit gekämpft und es sind dem Einfallsreichtum der 
Entwickler keine Grenzen gesetzt, nur um möglichst 
nahe an das mathematische Ideal heranzukommen. Ein 
Großteil der Entwicklungsarbeit wird darauf verwendet, 
die Auswirkungen der Rechenungenauigkeit verfügba- 
rer Hardware-Bausteine so gering wie möglich zu halten. 

Einer dieser Tricks ist z.B. die Verwendung des Block- 
Fließkomma-Formats (siehe Teil 2), das sich gerade in 
der FFT einer großen Beliebtheit erfreut. Die Effektivität 
dieser Zahlendarstellung ist allerdings stark abhängig 
von der Art des verwendeten Algorithmus; sie kann 
daher nicht als universelles „Allheilmittel“ angesehen 
werden. 

Warum verwendet man nicht Gleitkommazahlen, wie 
dies jeder Personal Computer bereits kann? Der Grund 
liegt natürlich in der Verfügbarkeit geeigneter Hard- 
ware-Bausteine. Aus heutiger Sicht bieten sich dem 
Entwickler drei Möglichkeiten: 

Man konfiguriere auf einer oder mehreren Platinen 
jede Menge LSI-, MSI- und SSI-Logikbausteine, wie es 
in vielen Array-Prozessoren gang und gäbe ist. 
Obschon solche Systeme sehr leistungsfähig und 
schnell sein können, sind sie doch meist recht groß 
und vor allem teuer. 

—Man übertrage Gleitkommarechnungen arithmetischen 
Coprozessoren, die zusammen mit Mikroprozessoren 
arbeiten. Sie beherrschen eine Vielzahl von Funktio- 
nen einschließlich Gleitkommarechnung. Unglück- 
licherweise sind solche Coprozessoren für die meisten 
hier interessierenden Anwendungen zu langsam und 
zudem auf spezielle uP-Bussysteme zugeschnitten. 
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—Man benutze einen der wenigen z.Z. verfügbaren LSI- 
Gleitkommabausteine. Das Problem hier ist die 
begrenzte Flexibilität und bei fast allen die Einschrän- 
kung auf einfache Genauigkeit. Diese Bausteine sind 
verglichen mit Bit-Slice-Systemen immer noch zu 
langsam und besitzen zudem meist zahlreiche interne 
Pipeline-Register, was die Software-Entwicklung und 
Steuerung verkompliziert. 


Vielseitig und doch schnell 


Die beiden letzten Mitglieder der Word-Slice-Familie, 
der Gleitkommamultiplizierer ADSP-3210 und die 
Gleitkomma-ALU ADSP-3220 kombinieren die Vielsei- 
tigkeit und Geschwindigkeit von Prozessoren auf MSI- 
Basis mit einer Vielzahl von Funktionen und Datenty- 
pen von arithmetischen Coprozessoren. Als Resultat 
können dann Systeme aufgebaut werden, die, was die 
Gleitkommarechnung angeht, an die Leistungsfähigkeit 
eines Großrechners heranreichen, mit Mitteln, die dem 
Aufbau von Mikro-Computern ähneln. 

Ein einziger numerischer Prozessor, der basierend auf 
diesem Chip-Paar aufgebaut ist, kann 32-Bit-Gleitkom- 
mazahlen mit einer Durchsatzrate von 10 MFLOPS 


berechnen (1 MFLOP = 1 Million Floating Point Opera- 
tions per Second). 

64-Bit-Gleitkommazahlen mit doppelter Genauigkeit 
werden mit 2 MFLOPs und 32-Bit-Festkommazahlen 
mit 10 MHz Durchsatzfrequenz berechnet. Zum Ver- 
gleich seien die Durchsatzraten zweier bekannter Com- 
puter angegeben: 


VAX-11/780: 0,3 MFLOPS (64 Bit) 
CRAY-1: 80 MFLOPS (64 Bit) 


Da beide CMOS-Bausteine intern nicht dynamische, 
sondern statische Logik verwenden, können sie an jede 
Geschwindigkeit bis 10 MHz angepaßt und somit an 
existierende Bussysteme angeschlossen werden. 

Von großer Bedeutung ist die Tatsache, daß beide 
Bausteine sowohl dem IEEE-Standard für Gleitkomma- 
prozessoren entsprechen als auch 32-Bit-Integer-Zahlen 
verarbeiten können. Dies macht sie interessant für CAD- 
Entwurfssysteme, wo neben der mathematischen Simu- 
lation auch umfangreiche Adreßberechnungen zur Gra- 
fikerzeugung durchgeführt werden. Als Teil der Konfor- 
mität unterstützen beide Bausteine alle fünf standardi- 
sierten Gleitkommazahlentypen und alle vier Run- 
dungsarten (siehe Kasten). 





Der IEEE-Standard 754 


Der IEEE-Standard setzt eine Norm für binäre Gleitkomma- 
Arithmetik. Er spezifiziert Datenformate, Operandentypen, 
Operationen, Rundungsmodi und Ausnahmebehandlung. 


Einfache Genauigkeit: 

Die Datenwortbreite ist 32 Bit, die wie folgt aufgeteilt ist: Das 
erste Bit repräsentiert das Vorzeichen, die nächsten 
8 Bit sind der Exponent und die verbleibenden 23 Bit reprä- 
sentieren die Mantisse. 


Doppelte Genauigkeit: 
Die Wortbreite ist 64 Bit, wovon 1 Bit für das Vorzeichen, 11 


Bit für den Exponenten und 52 Bit für die Mantisse vorgese- 
hen ist. 


Vier verschiedene Operandentypen sind spezifiziert: 

1. Normierte Zahlen 

Sie repräsentieren sozusagen den Normalfall und werden wie 
folgt dargestellt: 
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Der Wert des Exponenten besitzt die Basis 2 und einen Offset 
von 127 bzw. 1023. Die Wortbreite der Mantisse wird implizit 





um ein Bit („Hidden Bit“) vergrößert und stellt einen Dezimal- 
bruch mit einer Vorkommastelle dar. 


2. Denormierte Zahlen 

Sie repräsentieren Zahlen, deren Wert kleiner als der mini- 
male normiert darstellbare Wert ist. Der Exponent ist Null, die 
Mantisse ist von Null verschieden und das „Hidden Bit“ ist 
ebenfalls Null. Der Wert einer solchen Zahl ergibt sich aus: 
(1) - 226.0, M bzw. 

(-1)/ R 91022 F 0, M 


3. Vorzeichenbehaftete Null 

Die Null wird am Exponenten von Null und einer Mantisse von 
Null erkannt. Das Vorzeichen-Bit bleibt jedoch gültig, so daß 
Werte von +0 und —O möglich sind. 


4. Unendlich 

Plus und minus Unendlich haben einen Exponenten von 255 
bzw. 2047 und eine Basis von Null. Das Vorzeichen unter- 
scheidet zwischen plus und minus Unendlich. 


5. Nicht-Zahlen (NAN — „Not A Number“) 

Wie der Name bereits vermuten läßt, handelt es sich hier 
nicht um Zahlen im eigentlichen Sinn, sondern vielmehr um 
ein spezielles Datenformat, das gewöhnlich als Flag im 
Datenfluß verwendet wird. Das Format dieser Nicht-Zahl ist 
ein Exponent von 255 bzw. 2047, aber mit einer Mantisse 
ungleich Null. Zum Beispiel werden solche Nicht-Zahlen zur 
Anzeige von nicht definierten Operationen (0 x ) ver- 
wendet. 


Der IEEE-Standard verlangt vier verschiedene Rundungs- 
arten: 

© Rundung auf die nächstgelegene Zahl 

© Rundung in Richtung Null 

© Rundung in Richtung plus Unendlich 

© Rundung in Richtung minus Unendlich 
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Beide Bausteine sind zudem voll kompatibel mit den 
Ausnahme-Behandlungsmethoden gemäß dem Stan- 
dard. Tritt ein Ausnahmefall auf, so geben die Chips 
einen oder mehrere Status-Flags aus, die den entspre- 
chenden Fall spezifizieren, so daß die steuernde Soft- 
ware das Resultat korrekt interpretieren kann. 


Obwohl die Verarbeitung von denormalisierten Zah- 
len selbstverständlich möglich ist, mußte aus Rücksicht 
auf die Ausmaße der Chips eine Ausnahmeregelung 
getroffen werden. Während der ALU-Baustein ADSP- 
3220 solche Zahlen ohne äußere Hilfe verarbeiten kann, 
ist der Multiplizierer ADSP-3210 auf die Unterstützung 
der ALU angewiesen. Der Grund liegt darin, daß auf dem 
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Bild 6. Alle 100 ns berechnet der Multiplizierer ADSP-3210 ein 
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Multiplizierer-Chip kein Platz mehr ist, um den sonst 
notwendigen Barrel-Shifter unterzubringen. Will man 
ihn trotzdem zur Verarbeitung von denormalisierten 
Zahlen einsetzen, so wird folgender „Trick“ angewandt: 

Zunächst wird mit Hilfe der ALU die Mantisse der 
denormalisierten Zahl normiert. Es besteht eine soge- 
nannte „verdrehte Zahl“ (Wrapped Number), die eine 
normierte Mantisse, aber einen negativen Exponenten 
besitzt, d. h. der Exponent wurde durch die Normierung 
soweit vermindert, daß er nun eine negative Zwei-Kom- 
plementzahl darstellt. Der Offset des Exponenten bleibt 
jedoch nach wie vor 127. Der Multiplizierer kann nun 
diese verdrehten Zahlen ohne weiteres verarbeiten, da 
sein Exponentenaddierer sowohl positive als auch nega- 
tive Zahlen akzeptiert. Das Produkt wird nun wieder an 
die ALU zurückgegeben und gegebenenfalls wieder in 
eine denormalisierte Zahl verwandelt. Beide Chips 
haben entsprechende Steuer- und Kontrollein- und -aus- 
gänge, so daß dieser ganze Vorgang automatisch ablau- 
fen kann. Ist die Zeitverzögerung bei der Behandlung 
von denormierten Zahlen nicht akzeptabel, so läßt sich 
der Multiplizierer in den „Fast-Modus“ schalten. Wird 
jetzt eine Zahl als denormalisiert erkannt, wird sie auto- 
matisch zu Null gesetzt. Dies entspricht zwar nicht dem 
IEEE-Standard, kann aber in zeitkritischen Anwendun- 
gen als akzeptable Näherung angesehen werden. 

Beide Chips haben intern das gleiche Bus-Interface, 
das sich für einen großen Bereich von Anwendungen 
hervorragend eignet. Jeder Baustein besitzt vier unab- 
hängige 32-Bit-Register, aufgeteilt in A- und B-Gruppen. 
Der Datentransport zu und von den Chips geschieht mit 
der zweifachen Taktrate (50 ns), so daß die Verarbei- 
tungsgeschwindigkeit nicht durch E/A-Transfers ver- 
langsamt wird. In jedem Systemzyklus von 100 ns wer- 
den jeweils ein A- und B-Register als Quelle für die 
entsprechende arithmetische Operation ausgewählt. 
Während des Rechenvorgangs können die beiden ande- 
ren A- und B-Register bereits neu geladen werden. 

Beide Bausteine besitzen nur eine einzige Pipeline- 
Stufe, was die Erstellung des Mikrocodes wesentlich 
vereinfacht und „Verstrickungen‘“ im Signalfluß verhin- 
dert. 

Der Kern des Gleitkommamultiplizierers ADSP-3210 
(Bild 6) ist das parallele 32x 32-Bit-Multiplikationsnetz- 
werk mit einer Verarbeitungszeit von 100 ns. Diese 
Geschwindigkeit konnte durch eine modifizierte Booth-/ 
Wallace-Struktur erreicht werden. Dies bedeutet, 32-Bit- 
Fest- und Gleitkommaoperanden werden mit einer 
effektiven Durchsatzrate von 10 MOPS bzw. 10 MFLOPS 
zu 64-Bit-Festkomma- oder 32-Bit-Gleitkommaproduk- 
ten verarbeitet. Vom Eingang bis zum Ausgang benötigt 
die Berechnung natürlich aufgrund des Pipeline-Regi- 
sters zwei Zyklen. Während des ersten Zyklus wird das 
Produkt berechnet, und im zweiten Zyklus wird das 
Resultat gerundet, formatiert und ausgegeben. 

Die Multiplikation von doppelt genauen Gleitkomma- 
zahlen wird mit einer effektiven Durchsatzrate von 
2 MFLOPS auf Befehl automatisch und ohne äußere 
Steuerung ausgeführt. 
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Bild 7. Neben arithmetischen Befehlen verfügt die Gleit- 
komma-ALU ADSP-3220 auch über die Möglichkeit der 
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Das letzte Mitglied unserer Word-Slice-Familie ist die 
Gleitkomma-ALU ADSP-3220. Ebenso wie der Multipli- 
zierer verarbeitet auch sie drei Datenformate (Bild 7). 

Die Durchsatzrate beträgt für 32-Bit-Fest- oder Gleit- 
kommazahlen 10 MOPS bzw. 10 MFLOPS, während die 
Verarbeitung von Gleitkommazahlen mit doppelter 
Genauigkeit eine Durchsatzrate von 5 MFLOPS erreicht. 
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Der ADSP-3220 führt alle gängigen arithmetischen 
und logischen Operationen aus wie Addition, Subtrak- 
tion, logische Verknüpfungen und Umwandlungen zwi- 
schen Fest- und Gleitkommazahlen. Außerdem führt er 
die bereits erwähnte Zahlenverdrehung zur Unterstüt- 
zung des Multiplizierers durch. 

Während dieser 1. Teil des Beitrags der Vorstellung 
der einzelnen Bausteine der Word-Slice-Familie gewid- 
met war, werden im 2. Teil drei verschiedene Prozessor- 
architekturen vorgeschlagen und am Beispiel einer 
1024-Punkte-FFT auf ihre Leistungsfähigkeit unter- 
sucht. 
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Dipl.-Ing. Wolfgang Wirwahn 
Cand.-Ing. Reinhold Ludwig 


Signalprozessor als Funktionsmodul 
im Mikrocomputersystem 


In der Praxis beschränken sich digitale Filter meistens 
auf mikroprogrammierte Hardwarestrukturen, womit 
der Flexibilität enge Grenzen gesetzt sind. Für den 
Entwurf eines universellen digitalen Signalprozessors 
bietet sich deshalb die Einbindung in ein Rechnersy- 
stem an. Nachfolgend wird ein Konzept für die Anwen- 


1 Allgemeine Anforderungen 


Für die digitale Signalverarbeitung im Niederfre- 
quenzbereich ist wegen des gewünschten Dynamikum- 
fanges von bis zu 90 dB eine Verarbeitung mit einer 
Wortbreite von 14...16 Bit erforderlich. Die Abtastfre- 
quenz soll 50 kHz betragen, was einer Zeitspanne zwi- 
schen zwei Abtastwerten von 20 us entspricht. Auf 
diesen Wert ist der verfügbare Verarbeitungszeitraum 
eines digitalen Filters festgelegt. Im Gegensatz zur 
mikroprogrammierten Hardwarestruktur, bei der die 
Einstellmöglichkeiten außerhalb des Systems liegen 
(Bild 1), soll hier ein Konzept vorgestellt werden, wel- 
ches ein vollständig von einem Mikroprozessor gesteu- 
ertes digitales Verarbeitungssystem realisiert (Bild 2). 
Die Einstellmöglichkeiten liegen hier innerhalb des 
Systems, da alle Baugruppen in das Mikroprozessorsy- 
stem einbezogen sind. 

Insbesondere soll im folgenden gezeigt werden, daß es 
trotz der zu verarbeitenden Wortbreite von 16 Bit mög- 
lich ist, die gezeigte Struktur mit einem normalen 8-Bit- 
Mikroprozessor (Z80) zu realisieren. 


2 Systemaufbau 


Bild 3 zeigt das gesamte digitale Verarbeitungssystem 
einschließlich des steuernden Mikroprozessors als 
Blockschaltung. 

Neben den für den Aufbau eines einfachen uP- 
Systems hinreichend bekannten Einheiten CPU, RAM, 
EPROM und E/A sind drei weitere Baugruppen erforder- 
lich, die die eigentliche Signalverarbeitung durch- 
führen: 


dung im Niederfrequenzbereich vorgestellt, bei dem 
ein Digitalfilter sowie die zugehörige PCM-Einheit in 
einem herkömmlichen Z80-Mikroprozessorsystem ein- 
gebunden ist. Hierbei ergab sich, daß der Anwen- 
dungsspielraum des ursprünglich als nichtrekursives 
Digitalfilter aufgebauten Gerätes sich erweitern ließ. 


KE - Codiereinheit 

DSE- Datentransfer- und Synchronisiereinheit 

FDE- Filter- und Decodiereinheit 

Die spezifischen Merkmale dieser Funktionsblöcke 
sind: 

Codiereinheit KE 

Die KE erzeugt aus dem analogen Niederfrequenzsignal 
das zur Digitalfilterung erforderliche PCM-codierte 
Signal. Diese Baugruppe ist als E/A-Port adressierbar 
und besteht im wesentlichen aus einer Sample-and- 
Hold-Schaltung mit nachgeschaltetem Analog-Digital- 
Umsetzer. 

Datentransfer- und Synchronisiereinheit DSE 
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Bild 2. Beim hier vorge- 
stellten digitalen Filter 
ist der Signalprozessor 
eine autonome Uhnter- 
einheit in einem Mikro- 
computersystem 
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Bild 4. Verwendetes Filtermodell 


< Bild 3. Gesamtübersicht des Mikrocomputers 
mit Digitalfilter-Einheit 








Die DSE enthält für den schnellen Datentransfer zwi- 
schen Codierer und Filter einen DMA-Controller sowie 
einen CTCG (Counter Timer Controller) zur Erzeugung 
von phasenstarren Taktsignalen, die eine Synchronisa- 
tion zwischen Codierer, Filter und Decodierer her- 
stellen. 
Filter- und Decodiereinheit FDE 
Die letzte zu betrachtende Baugruppe FDE ist hier nur 
als Baueinheit, nicht aber als Funktionseinheit aufzufas- 
sen. Sie beinhaltet im ersten Teil den eigentlichen digi- 
talen Signalprozessor in der Form eines nichtrekursiven 
Digitalfilters. Der Zusammenhang zwischen den Ein- 
gangswerten X, Xk-ı, Xk.a... und dem Ausgangswert yx 
wird durch die Gleichung 

M 
N 2 


m=0 


hm Xk-m (1 ) 


beschrieben und kann gemäß Bild 4 dargestellt werden. 
Die Größen h, sind hierbei konstante Bewertungskoeffi- 
zienten. Dieser mathematische Zusammenhang ist im 
vorliegenden System durch Einsatz eines schnellen 
16x16-Bit-Multiplizierer-Akkumulators sowie eines 
Daten-, Koeffizienten- und Mikroprogramm-RAMs 
(Mikroprogramm für Multiplikation mit anschließender 
Addition) realisiert. 

Koeffizienten-RAM und Mikroprogramm-RAM sind 
doppelt ausgeführt, so daß ein Austausch der Filterpara- 
meter durch Umschalten der RAM-Sätze zum geeigne- 
ten Zeitpunkt ohne Störung der Abarbeitung im Filter 
möglich ist. Im zweiten Teil der FDE wird der Filteraus- 
gangswert mit einem Digital-Analog-Umsetzer decodiert 
und in ein analoges Signal umgesetzt. 











CPU 





Bild 5. Aufbau der Datentransfer- und Synchronisier- 
einheit. Dieser Funktionsblock arbeitet mit einem 
DMA- und einem CTC-Baustein 
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3 Realisierung 


Der in der Codiereinheit KE verwendete Baustein 
A/D/A/M-724 der Firma Analogic enthält die für die 
PCM-Codierung notwendigen Module: Sample-and- 
Hold-Verstärker und Analog-Digital-Umsetzer. Er gestat- 
tet eine Signalauflösung von 14 Bit bei einer maximalen 
Umsetzzeit von 7 us. Unter Berücksichtigung einer 
Erholzeit von 3us der Sample-and-Hold-Schaltung 
ergibt sich eine maximale Abtastfrequenz von 100 kHz. 
Die Umsetzung wird durch eine von der DSE bereitge- 
stellte Impulsfolge „A/D-Trigger“ eingeleitet. Sie defi- 
niert die hier auf 50 kHz festgelegte Abtastfrequenz. Die 
Einstellung anderer Frequenzen ist möglich. Mit dem 
zusätzlich von der DSE bereitgestellten Signal „HIBE“ 
(High Byte Enable) werden entweder die höherwertigen 
6 Bit oder die niederwertigen 8 Bit der 14 Multiplex- 
Datenleitungen des Codierers selektiert. Die dadurch 
notwendige sequentielle Abfrage der Daten in zwei 
Zugriffen reduziert den Informationsdurchsatz, ist aber 
aufgrund der 8-Bit-Struktur des Systemdatenbusses und 
(des DMA-Prozessors unvermeidbar. 

Die Datentransfer- und Synchronisiereinheit DSE 
erfüllt die folgenden zwei Aufgaben: 


A) Bereitstellung der für die Synchronisation notwendi- 
gen Signale durch einen Timer 

B) Datentransfer von der KE zu der FDE mit einem 
DMA-Prozessor. 

Bild 5 zeigt die prinzipielle Funktionsweise. 


Der Timer leitet mit der Ausgabe der Impulsfolge 
„A/D-Trigger‘ die Umsetzung in der KE ein. Mit einem 
Zeitversatz, der mit 8 us etwas über der Umsetzdauer 
des Codierers liegt, erfolgt die Aktivierung des DMA- 
Prozessors über die Ready-Leitung. Als Reaktion hierauf 
fordert dieser mit BUSRQ die Übernahme der Bussteue- 
rung von der GPU an. Wird OPU-seitig die Anforderung 
mit BUSACK quittiert, können unter Kontrolle des 
DMA-Prozessors byteseriell die höherwertigen 6 Bit 
(High-Byte) und die niederwertigen 8 Bit (Low-Byte) des 
Codierers in die Speicher der FDE transferiert werden. 
Sind die Daten mit Hilfe der HIBE-Leitung in der zeitli- 
chen Reihenfolge High-Byte und Low-Byte in die ent- 
sprechenden Speicherzellen der FDE geladen, gibt der 
DMA-Prozessor infolge der nun inaktiven Ready-Lei- 
tung die Buskontrolle an die CPU zurück. Schließlich 
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erteilt der Timer mit einem Zeitversatz von 6 us gegen- 
über der Aktivierung der Ready-Leitung bzw. 14 us 
gegenüber „A/D-Trigger“, den Freigabeimpuls für die 
Verarbeitung in der FDE. Der sich mit der Abtastfre- 
quenz von 50 kHz wiederholende Gesamtvorgang ist als 
Zeitdiagramm in Bild 6 qualitativ dargestellt. 

Kern der PCM-Übertragungsstrecke ist die in Bild 7 
gezeigte Filter- und Decodiereinheit FDE. Die Hauptbe- 
standteile sind dabei: 

1) die doppelt ausgeführten Koeffizienten- und Statusin- 
formationsspeichereinheiten 

2) die Taktsteuerung für den Multiplizierer und Ad- 
dress-Pointer 

3) die Speicher für die von der DSE transferierten 
codierten Abtastwerte 

4) der Address-Pointer für die Adressierung der unter 1) 
und 3) genannten Speicher 

5) der Multiplizierer für die Signalverarbeitung 

6) die Decodierung mit D/A-Umsetzer. 

Vor Inbetriebnahme der FDE ist mindestens eine der 
beiden Koeffizientenspeichereinheiten mit einer Orga- 
nisation von 16 x 16 Bit zu laden. Jedem Koeffizienten- 
RAM fest zugeordnet ist ein Statusinformations-RAM 
(Organisation: 16 x 4 Bit) für die Mikroprogrammierung 
des Rechenwerkes. Diese Speichereinheit muß gemein- 
sam mit den Koeffizienten geladen werden. Abschlie- 
ßend wird die Filtertiefe vorgegeben, d.h. die Anzahl 
der an der Filterung beteiligten Koeffizienten. Der die 
Filtertiefe bestimmende Faktor M in Gleichung (1) kann 
hierbei von 0...15 beliebige ganzzahlige Werte anneh- 
men. Die Speicherunterteilung in zwei getrennte Einhei- 
ten erlaubt den Austausch sämtlicher am Filtermodell 
beteiligter Koeffizienten in Echtzeit, d. h. zwischen zwei 
Abtastzeitpunkten. 

Der Speicher für die codierten Signale übernimmt die 
durch den DMA-Prozessor transferierten Signalwerte. 
Die Speichertiefe wird wie bei den Koeffizienten-RAMs 
über die Filtertiefe M eingestellt. Das Abspeichern der 
transferierten Daten erfolgt rotierend, d.h. der jeweils 
aktuelle überschreibt den ältesten Signalwert. 

Nach Beendigung des DMA-Transfers erteilt die DSE 
den Freigabeimpuls, der die Taktsteuerung veranlaßt, 
drei gegeneinander zeitverschobene Impulsfolgen der 


Anzahl M+1 auszugeben. Die erste Taktleitung steuert 
den Address-Pointer, die beiden anderen sind für den 
Multiplizierer bestimmt. 


Der Address-Pointer übernimmt die zeitlich richtige 
Zuordnung zwischen den codierten Signalwerten und 
den jeweiligen Koeffizienten. Nach jedem Freigabeim- 
puls aus der DSE adressiert dieser in schneller Folge 
(Periode = 375 ns) sämtliche relevanten Speicherzellen 
und steuert dadurch den Datenfluß zum Multiplizierer. 


Hauptbestandteil für den digitalen Verarbeitungspro- 
zeß ist der Multiplizierer und Akkumulator TDG 1010] 
der Firma TRW. Eingangsseitig übernimmt diese Arith- 
metikeinheit die codierten Signale sowie die bereitge- 
stellten Koeffizienten, um zu einem späteren Zeitpunkt 
das Verarbeitungsergebnis an den Decodierer auszuge- 
ben. Die im Filtermodell (Bild 4) vorkommenden Opera- 
tionen der Multiplikation und Addition werden von 
dem Baustein unter Kontrolle eines Mikroprogramms 
ausgeführt. Mit jedem Koeffizienten wird ein Mikrobe- 
fehl als 4-Bit-Statusinformationswort bereitgestellt. Die- 
ses definiert neben den Rechenoperationen der Multi- 
plikation, Addition oder Subtraktion die Art der Codie- 
rung, z.B. Zweierkomplement. Diese Form der Bau- 
steinsteuerung erlaubt es, zu jedem einzelnen Abtast- 
wert und Koeffizient die dazugehörige Verarbeitung zu 
wählen. Es ist deshalb auch möglich, neben dem in 
Bild 4 gezeigten Modell andere Formen von Filtermo- 
dellen aufzubauen. Die gemeinsame Übernahme der 
Abtastwerte, Koeffizienten und Mikrobefehle in die 
Register der Arithmetikeinheit wird durch eine von der 
Taktsteuerung erzeugte Impulsfolge veranlaßt. Eine 
zweite Impulsfolge liefert den Übernahmetakt in das 
Ausgangsregister. Sie hat gegenüber der ersten eine Zeit- 
verschiebung von 200 ns. Damit ist sichergestellt, daß 
dem Multiplizierer genügend Zeit für die Signalverar- 
beitung zur Verfügung steht, ehe die Rechenergebnisse 
in das Ausgangsregister übernommen werden. In 
Abhängigkeit von der Filtertiefe M werden M+1 Abtast- 
werte und Koeffizienten sukzessiv mit der ersten 
Impulsfolge in den Multiplizierer übernommen und ver- 
arbeitet, bevor die zweite Impulsfolge die jeweils aufad- 
dierten Zwischenergebnisse in das Ausgangsregister 
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Bild 6. Zeitlicher Verlauf der DSE-Steu- 
ersignale 
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Bild 7. Die Filter- und Decodiereinheit (FDE) beinhaltet den 
eigentlichen digitalen Signalprozessor 
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Initialisierung 
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1. Initialisierungswort für 
Timermode der drei Kanäle 


2.Initialisierungswort für 
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Bild 9. Zeitlicher Verlauf der Steuerimpulse im Gesamtsystem 


Es bedeuten: 


AO = BAl: 

Ai =CE!: 

A2 = CE2: 

A3 = CLKX,Y: 
A4 = CLKP: 
A5 = TSM: 

A6 = A/D-Trigger: 
A7 = Ready: 
BO = Freigabe: 
B1 (MSB), B2, 
B3, B4 (LSB): 
B5, B6, B7: 
Zeitmaßstab: 
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Systembus-Übernahme durch DMA-Prozessor 
Chip-Enable des 1. Speicherpaars der codier- 
ten Signalwerte 

Chip Enable des 2. Speicherpaars der codierten 
Signalwerte 

Übernahmetakt in die Eingangsregister des 
Multiplizierers 

Übernahmetakt in das Ausgaberegister des 
Multiplizierers 

Tri-State-Steuersignal für das Ausgaberegister 
des Multiplizierers 

Umsetzimpuls für KE 

Aktivierungssignal für DMA-Prozessor 
Startsignal der Filterverarbeitung 

Teil des Address-Pointers (hier: das Daten- 
RAM adressierend) 

ohne Bedeutung 

4 us zwischen zwei vertikal gepunkteten Linien 


abspeichert. Das nach M+1 Schritten im Ausgangsregi- 
ster stehende Endergebnis wird dem Decodierer zur 
Umsetzung bereitgestellt. 

Als Decodierer findet ein 16-Bit-D/A-Umsetzer, 
MP 1926A von Analogic mit 3 us Einschwingzeit Ver- 
wendung. Zur Unterdrückung der am Ausgang des D/A- 
Umsetzers auftretenden Spannungsspitzen ist ein 
„Deglitcher‘ MP 201A derselben Firma nachgeschaltet. 


4 Initialisierungssoftware 


Die Systeminitialisierung unterteilt sich in die Einzel- 
initialisierungen für die FDE und DSE. 

Bei der FDE werden die Mikroinstruktionen durch 
direktes Beschreiben einer zu der Filtertiefe M korre- 
spondierenden Anzahl von Speicherzellen geladen. Die 
Filtertiefe wird durch Ausgabe eines entsprechenden 
Datenwortes in das als E/A-Port adressierte FDE-Register 
festgelegt. 

Bei der DSE wird zuerst der DMA-Prozessor für den 
Datentransfer von der KE zur DSE initialisiert. Die vom 
Timer zu generierenden drei zeitversetzten 50 kHz Takte 
erreicht man dadurch, daß die betreffenden CTC-Kanäle 
eine zeitversetzte Initialisierung erfahren. Hierbei wer- 
den die Zeitlücken durch Abarbeitung von NOP-Instruk- 
tionen überbrückt. Eine NOP-Instruktion gestattet eine 
Zeitquantisierung von 1 us bei einem Systemtakt von 
4 MHz. Bild 8 zeigt die DSE-Initialisierung als Flußdia- 
gramm. 


5 Zeitverhalten 


Bild 9 zeigt das typische Zeitverhalten des Gesamtsy- 
stems. 

Die PCM-Übertragungsstrecke beginnt die Codierung 
eines Analogwertes mit A/D-Trigger (Kanal A6). Unter 
Berücksichtigung der Umsetzzeit wird nach 8 us die 
Ready-Leitung am DMA-Prozessor aktiviert (Kanal A7). 
Mit einer Zeitverzögerung von 1,22 us gegenüber der 
positiven Flanke auf der Ready-Leitung übernimmt der 
DMA-Prozessor die Bussteuerung (Kanal AO). Diese 
Zeitdauer beträgt 3,36 us, während der der Abtastwert in 
die Datenspeicher der FDE eingeschrieben wird (Kanäle 
A1 und A2). Mit dem 14 us nach „A/D-Trigger“ folgen- 
den Freigabeimpuls (Kanal BO) beginnt die eigentliche 
Filterverarbeitung. Am Beispiel des Signalpointers 
(B1...B4) als Teil des Address-Pointers ist die Speicher- 
adressierung dargestellt. Zuerst werden die beiden 
Datenspeicherpaare aktiviert (Kanäle Ai und A2), bevor 
der Signalpointer die einzelnen Adressen generiert. Die 
zugehörigen Speicherzelleninhalte werden mit CLK X,Y 
in den Multiplizierer übernommen. Parallel hierzu läuft 
der Vorgang der Koeffizientenadressierung mit Über- 
nahme in den Multiplizierer ab (ist in Bild 9 nicht 
dargestellt). CLK P (Kanal A4) lädt die Verknüpfungser- 
gebnisse in das Ausgangsregister. Der nach dem letzten 
CLK-P-Impuls im Ausgangsregister stehende Wert wird 
als Endergebnis an den D/A-Umsetzer ausgegeben. Dies 
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erfolgt durch Aktivierung der TSM-Leitung (Kanal A5). 
Die Filterverarbeitung — vom Freigabeimpuls bis zum 
letzten CLK-P — benötigt 6,1 us bei einer Filtertiefe von 
M=15. Wie das Zeitdiagramm zeigt, kann die Verarbei- 
tungsdauer (Kanäle A3 und A4) bis zur nächsten Über- 
nahme der Bussteuerung durch den DMA-Prozessor 
(Kanal AO) genutzt werden. Bei entsprechender Erweite- 
rung der Speicher ist somit — unter Beibehaltung der 
Zykluszeit von 375 ns für CLK X, Y und CLKP - eine 
Verarbeitungstiefe von bis zu 40 Koeffizienten möglich. 


6 Zusammenfassung 


Der vorgestellte Aufbau eines digitalen Signalprozes- 
sors bietet eine Reihe von Vorteilen gegenüber her- 
kömmlichen Konzepten. Mit der Möglichkeit, sämtliche 
am digitalen Verarbeitungsprozeß beteiligten Baugrup- 
pen in ein Z80-uP-System einzubeziehen, wird ein 
hohes Maß an Flexibilität erreicht. Ein Anwender kann 
damit für die Steuerung des Prozessors auf bekannte 
Programmiertechniken zurückgreifen. Eine Änderung 
der Filterstruktur läßt sich durch Austauschen der Koef- 
fizienten und des Mikroprogramms sowie durch Varia- 
tion der Filtertiefe auf einfache Weise realisieren. Der 
Platzbedarf ist mit insgesamt vier zusätzlichen Europa- 
karten gering. 

Ein Ausbau des bestehenden Systems bereitet keine 
größeren Schwierigkeiten. Zur Verbesserung der Filter- 
wirkung ist eine Erweiterung der Filtertiefe von 15 auf 
90 bei gleichzeitiger Verringerung der Zykluszeit bereits 
in Vorbereitung, womit auch die Verarbeitungskapazität 
des Multiplizierer-Akkumulators besser ausgenutzt 
wird. Außerdem ist eine Ergänzung für den Aufbau 
eines rekursiven Filters geplant. 

Für ein Digitalverarbeitungssystem dieser Art ergeben 
sich neben der Anwendung im Niederfrequenzbereich 
eine Reihe anderer Verwendungsmöglichkeiten. So ist 
beispielsweise der Einsatz als uP-unterstützende Arith- 
metikeinheit, aber auch die Anwendung in der Meß- 
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Dr.-Ing. Jürgen Schloß, Dipl.-Ing. Herbert Müller 


Schneller Vektorprozessor 
zum Anschluß an 16-Bit-Mikrocomputer 


Herkömmliche Mikrocomputer sind in den meisten 
Fällen für Echtzeitanwendungen zu langsam. Um ihren 
Einsatz auf diesem Gebiet dennoch zu ermöglichen, 
wurde ein Vektorprozessor entwickelt, der als schnel- 
les Zusatzrechenwerk verwendet werden kann. Der 
Hardwareaufwand liegt bei drei Doppeleuropakarten 
und ist damit weit geringer als bei den bekannten 
Array-Prozessoren, die zum Anschluß an Minicompu- 
ter und Großrechner konzipiert wurden. Bevorzugte 


Durch die Weiterentwicklung der Theorie diskreter 
Systeme und ihre Anwendung für die digitale Signalver- 
arbeitung [1, 2, 3] in den letzten Jahren hat das Interesse 
an schnellen Rechenwerken ständig zugenommen. Die 
Algorithmen der digitalen Signalverarbeitung sind meist 
außerordentlich rechenintensiv (z. B. in der Bildverar- 
beitung) und darüber hinaus häufig auch noch sehr 
zeitkritisch, wenn es um Echtzeitanwendungen geht 
(z. B. digitale Regler, Filter, Sprachverarbeitung). 

Es ist sicherlich möglich, durch den Einsatz von Mul- 
tiprozessorsystemen den Engpaß in der Rechenleistung 
zu mildern, doch belegt folgende Überlegung, wie pro- 
blematisch diese Vorgehensweise ist: Der MOS-Mikro- 
prozessor 8085 kann 8 Bit breite Datenworte verarbeiten. 
Zur Ausführung einer 16X 16-Bit-Multiplikation ist des- 
halb eine zeitaufwendige Doppelwortarithmetik not- 
wendig, so daß die Multiplikationszeit bei 400 us liegt. 
Der Einsatz von zum Beispiel 100 Rechnern würde eine 
mittlere Multiplikationszeit von 4 us ergeben und damit 
aber immer noch um den Faktor 40 über der von einem 
schnellen Parallelmultiplizierer-IC benötigten Rechen- 
zeit liegen. Probleme des Datentransportes sind hierbei 
nicht berücksichtigt. 

Diese Verhältnisse können durch den Einsatz von 
MOS-Mikroprozessoren, die 16 Bit verarbeiten und 
Maschinenbefehle für die Multiplikation zur Verfügung 
stellen, zwar verbessert werden, doch liegt auch bei 
diesen Rechnern die Multiplikationszeit für Zweier- 
Komplement-Zahlen zum Teil noch erheblich über 
10 us, so daß auch hier eine sehr hohe Zahl von Rech- 
nern nötig ist, um die Leistungsfähigkeit eines bipolaren 
Parallelmultiplizierers zu erreichen. Dabei sind die 
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Anwendungsgebiete sind die digitale Signalverarbei- 
tung, die Mustererkennung sowie die Sprach- und 
Bildverarbeitung. Auch bei Robotern und Bahnsteue- 
rungen fallen in sehr kurzer Zeit viele Rechenoperatio- 
nen an, die schnell verarbeitet werden müssen. Diese 
Anforderungen lassen sich mit dem beschriebenen 
Vektorprozessor erfüllen. Zunächst wird ein Einblick 
in die Prinzipien der Vektorverarbeitung gegeben, es 
folgt eine Erläuterung zum Hardwareaufbau. 


Steuerungsprobleme beim Einsatz so vieler Prozessoren 
noch gar nicht berücksichtigt! 

Geht man von der Anwendung eines Prozessorsy- 
stems für die spezielle Klasse der Algorithmen für die 
digitale Signalverarbeitung aus, so kann man eine 
gewisse Homogenität (gleichartige Operationen auf viele 
Daten) der notwendigen Rechnungen beobachten. Dies 
führt zu speziellen Rechenwerken, bei denen die Archi- 
tektur an die Algorithmen angepaßt ist. 

Für die Aufgaben der digitalen Signalverarbeitung 
zeigt sich, daß die Verarbeitung von Vektoren eine 
immer wiederkehrende Operation ist. Dies wird nach- 
folgend anhand einiger Beispiele beschrieben. 


1 Vektorielle Signaldarstellung 


Unter einem Vektor wird hier wie üblich eine geord- 
nete Menge von Zahlen verstanden. Zum Beispiel liefert 
ein periodisch abtastender Analog-Digital-Umsetzer 
einen Signalvektor (Bild 1), der zum Beispiel unendlich 
lang sein kann 


a Di a er ) 

oder aus Einzelvektoren besteht 

= SW 

mit u 

un [Uo, Un, «.- Un] (1) 
U; = [Un41, Un+2, -- Um] USW. 





“) Zur Schreibweise: 
Es ist fü, W,...)= [u]! bzw, [u] = (us, Un, ..) 
Us Us 
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oder aber aus einzelnen, sich in ihren Elementen über- 
lappenden Vektoren aufgebaut sind: 

u — lu", u, ... 5 w]" 

mit zum Beispiel 

U, [uo, U1, Us, u;]" (2) 
15. [u, U3, Us, us)" 

U; = [u;, U5, U, Us)" usw. 

Die Aufteilung nach Gl. (1) ist naheliegend für ein 
Fernsehbild, die u, sind dann die Bildpunkte, die u, die 
Zeilen. u 

Die Darstellung nach Gl. (2) ist vorteilhaft für die 
digitale Berechnung von Filterfunktionen oder Korrela- 
tionen. Da Signalabtastwerte meist gleichberechtigt 
sind, läßt sich schon erahnen, daß die digitale Verarbei- 
tung von Signalen häufig durch gleichartige Operatio- 
nen über sehr viele Abtastwerte (u,) realisiert wird [4, 5]. 


2 Erste Anwendung: Eindimensionale Signale 


Eine typische Anwendung der digitalen Signalverar- 
beitung ist die Hoch- bzw. Tiefpaßfilterung von 
Signalen. Man kann damit beispielsweise eine Gleich- 
spannungskomponente oder Drift entfernen bzw. eine 
Rauschbefreiung vornehmen. Als Beispiel sei hier ein 
nichtrekursives digitales Filter 3. Grades angeführt [1]; 
Bild 2 zeigt seine Struktur. 

Die u, seien die Abtastwerte entsprechend der Dar- 
stellung in Bild 1, v, sind die digital berechneten Aus- 
gangswerte. 

Der v-te Abtastwert des Ausgangssignals wird berech- 
net durch 
v=h'uwthh with we+ths ws 


und weiter 
Ya= be wa + u + ii na + a usw. 
oder in vektorieller Schreibweise: 
v,= (ho, hi, h,,h,) [u, = h ul 
Uu-1 
3 Uv-2 
bzw.v,= I EL. (3) 


h=0 

Ein Signalprozessor, der als nichtrekursives digitales 
Filter programmiert ist, muß also zur Bestimmung eines 
Filterausgangswertes das „innere Produkt“ zweier Vek- 
toren berechnen. Seine Architektur sollte die Berech- 
nung von Ausdrücken wie in Gl. (3), also das Bilden von 
Summen von Produkten, vorteilhaft ermöglichen. 

Um einen ersten Eindruck von den notwendigen 
Rechenleistungen eines Signalprozessors zu geben, soll 
überschlägig die Rechenzeit zur Ermittlung eines Aus- 
gangssignalwertes abgeschätzt werden. Das Filter nach 
Bild 2 benötigt für einen Wert v,;: 

4 Multiplikationen, 

3 Additionen und mindestens 

3 Speichertransfers. 
Ausgehend von einem Mikroprozessor 8085 sind hierzu 
1.2 ms notwendig. Das heißt, die Abtastrate kann 
0,5...1 kHz sein, was entsprechend dem Shannonschen 
Abtasttheorem einer Signalbandbreite von etwa 


0,25...0,5 kHz entspricht. Diese Bandbreite ist weit 
geringer, als zum Beispiel für Telefonqualität gefordert 
wird. Möchte man ein Audio-Signal in HiFi-Qualität 
(Bandbreite 20 kHz) verarbeiten, muß der Signalprozes- 
sor bei diesem Beispiel bereits eine um den Faktor 
20...40 höhere Rechenleistung bieten. 

Ohne detaillierte Begründung sei angemerkt, daß sich 
auch für Algorithmen wie die schnelle Fouriertransfor- 
mation (FFT) oder auch für Korrelationen vektorielle 
Algorithmenbeschreibungen angeben lassen [4]. 

Der gezeigte Filteralgorithmus ist auch auf Realisie- 
rungen digitaler Regler und digitaler Interpolatoren, 
2. B. für Bahnkurvensteuerungen (Industrieroboter), an- 
wendbar. 


3 Zweite Anwendung: Zweidimensionale Signale 


Die Anwendung von Vektoroperationen auf zwei- 
dimensionale Signale soll anhand der Bildverarbeitung 
gezeigt werden. Eine typische Aufgabe ist hierbei die 
Kantendetektion. Sie kann zum Beispiel mit einem 
„Laplace-Operator“ durchgeführt werden, der ein digita- 
les zweidimensionales Hochpaßfilter darstellt [6, 7]. 

Nachfolgend wird gezeigt, wie die Filteroperation vor 


sich geht. 

Es sei 

41 Ay Ay Ay4 
a1 An Ang Aa 
a4 Ay Ay Ayy 


Ay Ay Ayg Ay 


das zu bearbeitende Bild mit den Bildpunkten a,, und 
hı ha Bis 





hu ha has 
hu ha has 
| 
a .? te ae 
Up U Up Uz Lg Us Up Ur Ug | 


Takt 


Bild 1. Das Ausgangssignal eines A/D-Umsetzers kann als | 
Vektor beschrieben werden | 





Uy-3 VW 
gefiltertes 
Signal 





Bild 2. Nichtrekursives digitales Filter: Die Blöcke ı verzö- 
gern die Abtastwerte um einen Takt 
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der Filteroperator, wobei h,, die Filterkoeffizienten sind 
(für Laplace-Operator: 

hy: = his =h;ı = ha; =0, 

hi, = h,, = ha = ha, = -1, 

h.= +4), 

dann ist das gefilterte Bild 

bıı bı2 bis bus 

b,, b22 ba; b;. 

b31 b3, b33 ba4 


41 42 bys bu4 


wobei die Bildpunkte b,, durch z. B. 
ba, = aıı Kur + a2 ° hi2 + aıs * his 
+aaı hau tan. ha + a has 
+ aa hy + a3 ha2 + a3 : hy; usw. 
zu berechnen sind. 
Für jede Zeile des Ausgangsbildes läßt sich dann 
folgende vektorielle Darstellung angeben: 


ba» 471 d12 d33 
by; 412 413 934 


b»4 — a13| ht [aua| biz +... + [as5| has (4) 


ode. b=ahı+3%h1,+ ..+ au hs; 

Aus Gleichung (4) geht hervor, daß der ausführende 
Signalprozessor neun Vektoren a, mit Filterkoeffizienten 
h,, multiplizieren und die so erhaltenen Zwischen- 
ergebnisvektoren aufakkumulieren muß. 

Dies läßt sich darstellen als 
b=ah,b:=3%,h2+b;..b:= ah, + b 
das heißt, durch neunmaligen Aufruf eines Vektorbe- 
fehls der Form 
Vektor A = Vektor B - Konst + Vektor © (5). 

In dem später beschriebenen Vektorprozessor ist ein 
solcher Befehl implementiert, er wird mnemonisch 
beschrieben durch 
VMADD & Vektor Multiply ADD2A-B+C-D. 

Die ausführliche Beschreibung dieses Beispieles ist 
als kurze Einführung in die Programmierverfahren für 
Vektorprozessoren gedacht. Es sei lediglich erwähnt, 
daß sich auch für nichtlineare Operationen, für die 2D- 
FFT bzw. 2D-Korrelation, vektorielle Darstellungen der 
Algorithmen angeben lassen. 


4 Dritte Anwendung: Mustererkennung 


In der Mustererkennung unterscheidet man zwischen 
Algorithmen zur Merkmalsextraktion, die einen Merk- 
malsvektor liefern, und solchen zur Klassifikation, die 
diesen Merkmalsvektor verarbeiten. Insbesondere im 
Bereich der Merkmalsextraktion wird sehr häufig eher 
intuitiv vorgegangen, und es würde den Rahmen dieses 
Beitrages bei weitem sprengen, wollte man hierauf 
detailliert eingehen [8]. 

Zur Gewinnung von Merkmalen bei der Spracherken- 
nung wird häufig eine Spektralanalyse durchgeführt 
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Bild 3. Systemarchitektur des Vektorprozessors 














und die Leistung in bestimmten Frequenzbändern als 
Merkmal benutzt. Diese Analyse ist durch Vektoropera- 
tionen beschreibbar, wie bereits in Abschnitt 2 erwähnt 
wurde. 

In der Bildverarbeitung besteht häufig die Aufgabe, 
Objekte zu erkennen (z. B. Positionieren von Robotern), 
zu zählen (z.B. medizinische Anwendung: „Zahl der 
Blutkörper“) oder zu analysieren (z.B. Werkstoffprü- 
fung). 

Bei all diesen Anwendungen müssen Strukturen bzw. 
Formen erkannt und mit Merkmalen (also Zahlen) 
beschrieben werden. Eine typische Aufgabe hierbei ist 
die Bestimmung der Schwerpunktkoordinaten eines 
Objektes im Bild, dessen Umrißlinien durch Verfahren 
der Kantendetektion (siehe Abschnitt 3) ermittelt 
wurden. 

Um die Leistungsfähigkeit der vektoriellen Algorith- 
men auch für diese Aufgabenbereiche zu demonstrieren, 
seien folgende Angaben gemacht: Ein Bild mit 512 x 
512 Bildpunkten habe 40 Objekte (2 geschlossene Kontu- 
ren). Um alle Objekte zu finden, gibt es einen Algorith- 
mus, der im Mittel die Aufgabe mit 32 Mio. Vektorver- 
gleichsoperationen löst. Hierzu benötigt ein Prozeßrech- 
ner PDP-11/34 etwa 12,4 min, der beschriebene Vektor- 
prozessor nur 30 s, obwohl sein Hardwareaufwand bei 
nur drei Doppeleuropakarten liegt. 


5 Anforderungen an einen Vektorprozessor 


Aus den vorangegangenen Beispielen geht hervor, daß 
eine zentrale Operation für die beschriebenen Beispiele 
die multiplikative und additive Verknüpfung von Ele- 
menten von Vektoren darstellt. In der Auswahl der 
richtigen Vektorbefehle und deren Implementierung in 
einem Vektorprozessor liegt das eigentliche System- 
Know-how. Es sind nämlich neben den klassischen Algo- 
rithmen der digitalen Signalverarbeitung wie Filterung 
oder FFT meistens noch weitere Operationen notwen- 
dig. Insbesondere für die Mustererkennung werden häu- 
fig nichtlineare Verfahren eingesetzt, die im einfachsten 
Fall aus Schwellwertoperationen, Maximum- bzw. 
Minimumsuche oder Datensortierroutinen bestehen. 
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Auch diese Rechenoperationen laufen über große Daten- 

mengen - also Vektoren - ab. 

Der nachfolgend beschriebene Prozessor ist deshalb 
mikroprogrammierbar [10]. Dadurch werden hauptsäch- 
lich zwei Vorteile erreicht: 

-Der Prozessor kann an neue Aufgaben jederzeit opti- 
mal angepaßt werden. 

-Dem Benutzer kann ein Basisbefehlssatz zur Verfü- 
gung gestellt werden, der ihn durch seine Komplexität 
(z. B. vollständige FFT durch Aufruf nur eines Maschi- 
nenbefehls) von der mühsamen und zeitaufwendigen 
Aufgabe der Algorithmenprogrammierung weitgehend 
befreit. 


6 Systemarchitektur 


Bild 3 zeigt die Systemarchitektur des Vektorprozes- 
sors. Er wird an den 16-Bit-Bus eines Mikrocomputers 
angeschlossen und nach dem Prinzip des Memory-Map- 
ping angesteuert. Er hat einen eigenen schnellen Spei- 
cher in Schottky-Technik, der als Zweitorspeicher auf- 
gebaut und somit für den Benutzer völlig transparent ist. 
Die zu bearbeitenden Vektoren werden von angeschlos- 
senen Mikrocomputern in diesen Speicher geladen oder 
von einer im Vektorprozessor vorhandenen DMA-Steue- 
rung automatisch mit bis zu 4 MByte/s von einer am Bus 
angeschlossenen Datenquelle geholt. Dieses Verfahren 
gewährleistet eine hinreichend schnelle Datenübertra- 
gung. 

Eine Operation im Vektorprozessor wird ausgelöst 
durch die Übertragung des Befehlscodes vom uC in eine 
bestimmte Speicherzelle des Vektorprozessors. Eine 
Besonderheit bietet der Vektorprozessor für den Fall, 


daß eine Vektorbefehlsfolge ständig wiederholend auf- 
gerufen werden soll: Es ist möglich, in seinem Speicher 
eine fast beliebige Zahl von Befehlen abzulegen, die sich 
die Steuerung des Vektorprozessors dann selbständig 
mit optimaler Geschwindigkeit abholt und bearbeitet. 

Die Synchronisation des Vektorprozessors mit dem uC 
kann über Interrupt oder die Abfrage eines Statusbits 
(„Vektorprozessor Busy“) vorgenommen werden. 
Außerdem lassen sich über das Statuswort Fehlercodes 
an das uC-System übermitteln. Beide Prozessoren sind 
autonom; während der Vektorprozessor arbeitet, kann 
der uC eigene Programme ausführen. 


7 Hardware 


Einen detaillierten Einblick in die Hardwarearchitek- 
tur gibt Bild 4. Die wesentlichen Komponenten sind 
— Mikroprogrammsteuerung (Sequencer Typ Am 2909) 
— Rechenwerk 
— 4 Speicher mit 4 Adreßrechnern und 2-Tor-Steuerung 
— DMA-Steuerwerk 

Die Architektur wurde entworfen mit dem Ziel, die 
bereits erwähnte Operation 
A=B-C+D (6) 
so schnell wie es mit der derzeitigen TTL-Technik mög- 
lich ist, zu berechnen. Als zentrale Rechenkomponenten 
wurden deshalb ein schneller 16-Bit-Parallelmultipli- 
zierer (MPY-16 HJ; Produkt-Bildung in 150 ns) sowie 
eine ALU (74 F 381) ausgewählt [9]. 

Eine bemerkenswerte Besonderheit der Architektur 
ist, daß jedem Speicher ein eigener Adreßrechner zuge- 
ordnet ist. Dadurch gewinnt das System eine außeror- 
dentlich hohe Flexibilität bei Speicherzugriffen. Es wird 
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Re der Bildpunkte 1 








Bild 5. So wird ein Bild im Speicher des Vektorprozessors 
abgelegt 








dadurch möglich, einen Vektor durch drei Parameter zu 
beschreiben: 


— Anfangsadresse (z. B.: = Basisadresse) 
— Zahl der Elemente (z. B.: = 64) 
— Adreßoffset (z. B.: = 64) 


Die Bedeutung des Adreßoffsets soll an einem Bei- 
spiel erklärt werden: Im Speicher des Prozessors sei ein 
Bild abgelegt, wobei die Zeilen aufeinanderfolgend mit 
aufsteigenden Adressen abgelegt sind (Bild 5). Wenn 
nun eine Bildspalte bearbeitet (und somit adressiert) 
werden soll, so sind die Adressen z.B. für die zweite 
Spalte 2, 66, 130, ... usw. 

Diese außerordentlich einfach zu spezifizierenden 
Parameter müssen vom Programmierer mit dem Befehls- 
code an den Vektorprozessor übergeben werden, die 
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Technische Daten des Vektorprozessors 





Technologie Schottky-TTL, FAST-TTL 
Zykluszeit 150 ns 
Rechenleistung max. 13 Mio. Operationen/s 
Speicherbandbreite ca. 50 MByte/s 
Steuerung 64 Bit horizontal mikroprogrammiert 
maximal 4 KWorte 
über „Piggy-Back“-Platine erweiterbar 
Interface für 16-Bit-uCs wie Z8000, 68000, 8086 
Speicher 4 Speichermodule jeweils 4K x 16 Bit 
+ 4 Adreßrechner 
2-Tor-Steuerung 
Rechenzeiten nichtrekursives digitales Filter 
10. Grades: 4 us/Abtastwert 
FFT; 1024 komplexe Punkte: ca. 17 ms 
1024 reelle Punkte: ca. 8 ms 
Aufbau 3 Doppeleuropakarten 
ca. 250 Bausteine 
Leistungsverbrauch ca. 40 W 





Hardware führt dann automatisch sämtliche Adreßrech- 
nungen durch. Die Adreßrechner sind mit geringstem 
Hardwareaufwand durch LSI-Bausteine des Typs 
Am 2932 realisiert. 

Bei vorgegebenen Leistungsdaten war es vorrangiges 
Entwicklungsziel, durch Verwendung modernster Bau- 
elemente den Hardwareaufwand so gering wie möglich 
zu halten. Es wurden Bausteine der Serie Am 2900 
sowie der schon erwähnte Multiplizierer MPY-16 HJ 
verwendet. Die notwendige SSI-Logik wurde, soweit 
möglich, mit PALs realisiert. Aus Geschwindigkeits- 
gründen wurden vielfach FAST-Bausteine der Serie 
74 FXX eingesetzt. 

Neben der optimierten Architektur sorgt die „hard- 
warenahe“ Mikroprogrammierung für die außerordent- 
lich hohe Rechenleistung des vorgestellten Konzeptes. 
Es wird ein 64 Bit breites horizontales Mikrowort ver- 
wendet, dabei sind vollständige Algorithmen wie FFT, 
Korrelation oder digitale Filter als Mikroprogramm 
neben den Basisvektoroperationen realisierbar. Dadurch 
wird die Anwendung des Prozessors stark vereinfacht 
und gleichzeitig seine Leistungsfähigkeit optimiert. Die 
Tabelle enthält weitere Details. 
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Dipl.-Ing. Gerd Ballenberger, Dipl.-Ing. Ernst Zauper 


„Nanosignalprozessor“ — Alternative 
zu integrierten Signalprozessoren 


Die digitale Verarbeitung von Signalen läßt sich mit 
unterschiedlichen Geräten ausführen, die zumindest 
zur Zeit noch gewisse Nachteile haben: Großrechner 
sind für den ständigen Einsatz zu teuer, schnelle spe- 
zielle Prozessoren sehr aufwendig (z. B. [1]), Mikropro- 
zessoren sind für viele Aufgaben zu langsam, inte- 
grierte Signalprozessoren haben (noch) zu kleine 
Speicher, spezielle festverdrahtete Hardware bietet 
nicht die wünschenswerte Flexibilität. 


1 Konzept und Randbedingungen 


Bei der Entwicklung des Prozessors waren folgende 
Gesichtspunkte zu berücksichtigen: Der Prozessor muß 
speziell für die schnelle Ausführung der in der digitalen 
Signalverarbeitung gebräuchlichen Algorithmen _(s. 
Abschnitt 2) geeignet sein und dabei eine möglichst 
hohe Flexibilität und damit Programmierbarkeit besit- 
zen. Dies ist gleichbedeutend mit der Forderung nach 
hardwarenaher Mikroprogrammierung, dem Vorhan- 
densein eines von außen zugänglichen, d.h. ladbaren 
Mikroprogrammspeichers, und, wie noch gezeigt wird, 
einer flexiblen Datenfluß-Struktur. 

Die Möglichkeit zur Steuerung und Beobachtung 
bedeutet, daß bei Bedarf auch innerhalb des Prozessors 
ablaufende Vorgänge beobachtet werden können. Damit 
erübrigt sich dann die Software-Simulation des Prozes- 
sors, und neuentwickelte Mikroprogramme können 
unmittelbar auf der Prozessor-Hardware getestet wer- 
den. Direkte Folge dieses Wunsches nach Steuer- und 
Beobachtungsmöglichkeiten ist der Einsatz eines 
Bedienrechners, der einerseits den Aufruf vorhandener 
Mikroprogramme ermöglicht und damit verbundene 
Funktionen wie Parameterabfrage und -umrechnung, 
Rechenzeitüberwachung usw. ausführt, andererseits 
aber auch als Hilfsmittel bei der Entwicklung neuer 
Mikroprogramme dient. 


Die dritte entscheidende Forderung stellt einen 
Widerspruch in sich dar: Es sollte eine möglichst hohe 
Verarbeitungsgeschwindigkeit bei gleichzeitig mäßigem 
Bauelementeaufwand erreicht werden. 


Hier wird der „Nanosignalprozessor NSP 81“ vorge- 
stellt, der in einer Diplomarbeit am Lehrstuhl für 
Nachrichtentechnik der Universität Erlangen-Nürn- 
berg entstand. Es wird gezeigt, daß mit verhältnismä- 
Big geringem Aufwand (209 Bausteine) die Realisie- 
rung eines zwar spezialisierten, aber programmierba- 
ren und daher flexiblen, vor allem schnellen Signalpro- 
zessors möglich ist, der die erwähnten Nachteile weit- 
gehend vermeidet. 


Die Konsequenzen dieser widersprüchlichen Forde- 
rung sind in Bild 1 dargestellt. Zunächst läßt sich dem 
Wunsch nach minimalem Aufwand dadurch entgegen- 
kommen, daß als zentrales Arithmetikelement ein inte- 
grierter VLSI-Signalverarbeitungsbaustein (Multiplizie- 
rer-Akkumulator, „MAC“) Verwendung findet, der die 











auf 2x1Kx16 Bit 
renie, 
Datenspeicher 


eek ga Mikropro- 
mm-Steuerung anstatt 


auf 1Kx64Bit begrenzter Mikroprogramm-Speicher 


Bild 1. Beziehungen zwischen Geschwindigkeit und Aufwand 
beim Entwurf des NSP 81 


so schnell als möglich 





so wenig Aufwand wie moglich 





(relativ breites) 
59-Bit-Mikro- 
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Bild 3. Einfaches 
rekursives Filter 











Funktionen Multiplikation, Addition/Subtraktion und 
Akkumulation auf einem Chip ausführt. Dieser Baustein 
läßt sich zweckmäßig (s. Abschnitt 2) in eine Zwei-Bus- 
Zwei-Speicher-Datenfluß-Architektur eingliedern, die 
einen hohen Datendurchsatz ermöglicht und damit auch 
den Geschwindigkeitsanforderungen entgegenkommt: 
Der MAC benötigt für eine 16% 16-Bit-Multiplikation 
und anschließende Addition 155 ns. Nachdem es sich in 
einer früheren Arbeit als günstig herausgestellt hatte, 
während eines solchen „Rechenzyklus“ zwei Mikrobe- 
fehle auszuführen [2], wurde für den NSP81 die Mikro- 
befehls-Zykluszeit auf 80 ns festgelegt, d. h. der Prozes- 
sor arbeitet mit einem echten 12,5-MHz-Einphasen- 
Systemtakt. Diese Taktfrequenz erlaubt noch die Ver- 
wendung von TTL-Bausteinen, wobei sich gegenüber 
ECL-Technik die Kosten durch den geringeren Baustein- 
preis, das Wegfallen von Abschlußwiderständen und 
durch die geringere Verlustleistung in Grenzen halten. 

Andererseits stellt eine Zykluszeit von 80 ns für die 
Speicher und deren Adressierung eine erhebliche 
Anforderung dar. Mit den schnellsten verfügbaren 
1-Kx4-Bit-NMOS-RAMss standen Bausteine zur Verfü- 
gung, mit denen sich sowohl die vorgegebene Zykluszeit 
als auch eine angestrebte Datenspeichergröße von zwei- 
mal 1 K Worten erreichen ließen. Das gleiche Problem 
tritt nochmals beim Mikroprogrammspeicher auf: für 
das relativ breite Mikrowort (> 59 Bit), das mehrere 
gleichzeitig ablaufende Operationen in einem Zyklus 
ermöglicht, werden ziemlich viele Bausteine benötigt, 
weshalb auch hier die Speichertiefe auf 1 K Worte 
begrenzt wurde. Weiterhin verbietet die hohe Taktfre- 
quenz den Einsatz eines integrierten Sequenzers. Die 
Mikroprogrammsteuerung ist deshalb mit MSI-TTL- 
Bausteinen aufgebaut. 


2 Architektur 


Die Architektur eines Spezialprozessors wird von den 
typischen Anwendungen beeinflußt, d.h. durch die 
Algorithmen, für deren Ausführung der Prozessor 
besonders geeignet sein soll. Beispiele sind: 
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a) Nichtrekursive Filterung 
Die Struktur in Bild 2 errechnet aus einer Eingangs- 
folge u(k) eine Ausgangsfolge 


yik)= ), b,uk-n+u). 

v=0 

Dafür sind die folgenden Operationen nötig: 

— Entgegennehmen und Speichern von Signalwerten. 
Die durch „z”!“ gekennzeichneten Blöcke sind 
durch RAM-Speicher realisierte Verzögerer, die die 
einlaufenden Signal-Abtastwerte u(k) jeweils für die 
Dauer einer Abtastperiode speichern. 

—- Multiplikation von Signalwerten mit Filterkoeffi- 
zienten (b„...bo); 

— Addition bzw. Akkumulation der Produkte und 
Ausgabe des Endergebnisses. 

b) Rekursive Filterung 

Aus der Blockschaltung des sehr einfachen rekursi- 

ven Filters in Bild 3, das eine Folge 


berechnet, geht bereits ein prinzipieller Unterschied 

zur nichtrekursiven Filterung hervor: außer den dort 

erwähnten Operationen besteht hier noch die Not- 
wendigkeit, Rechenergebnisse in den Prozessor 
zurückzuführen und abzuspeichern. 

c) Für die Berechnung der Korrelierten 
y(k) = ulkJuz(xk — k) 

K=0 

zweier Wertefolgen u,(k) und u;(k) benötigt der Pro- 

zessor zwei Eingänge. 

Alle in a)...c) dargestellten notwendigen Operationen 
sind auf der sehr einfachen Datenfluß-Struktur von 
Bild 4 realisierbar. Diese Grundstruktur besteht eigent- 
lich nur aus dem Multiplizierer-Akkumulator-Rechen- 
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Bild 5. Vereinfachte Blockschaltung des NSP81 





baustein, zwei Speichern für die Signalwerte bzw. Fil- 
terkoeffizienten sowie zwei Signaleingängen und einem 
Ausgang, der über den Signalwertspeicher die Rückfüh- 
rung von Ergebnissen in den Prozessor erlaubt. 

Die Realisierung einer solchen Minimalstruktur kann 
für sehr spezielle Aufgaben durchaus interessant sein. 
Zielt man jedoch auf einen flexibleren Prozessor ab, der 
die Möglichkeiten der Mikroprogrammierbarkeit weitge- 
hend ausnützt und die möglichst schnelle Ausführung 
auch anderer Algorithmen erlaubt, so wird man die 
Minimalstruktur um einige Details erweitern. Bild 5 
zeigt die vereinfachte Gesamt-Blockschaltung des 
NSP81. Neben den unterlegten Schaltungsteilen, die der 
Minimalstruktur von Bild 4 entsprechen, sind die fol- 
genden vier Erweiterungen enthalten: 


— Durch ein System zweier miteinander gekoppelter und 
in die Datenflußstruktur eingegliederter Datenbusse 
besteht die Möglichkeit, eine große Anzahl interner 
und externer Daten-Quellen und -Senken direkt mit- 
einander zu verbinden, so daß sich jeweils für 
bestimmte Algorithmen optimale Datenwege ergeben. 
Mit jedem Mikrowort läßt sich so eine neue Prozessor- 
struktur programmieren. 

- Die Rechenleistung des Prozessors kann erhöht wer- 
den, wenn man den Multiplizierer-Akkumulator von 
Operationen entlastet, für die er nicht besonders geeig- 
net ist (z.B. einfache Addition zweier Operanden, 
logische Operationen), und dafür eine separate ALU 
einsetzt. Diese kann z. B. aus Bit-Slice-Elementen auf- 
gebaut sein, oder, wenn alle Operationen innerhalb 
eines Zyklus ausgeführt werden sollen, aus schnellen, 
dafür weniger flexiblen TTL-ALU-Bausteinen. 

-Die Datenspeicher werden zweckmäfßigerweise mit 
separaten Adreß-Rechnern ausgestattet, die aus weni- 
gen Zähler-, Addierer-, Multiplexer- und Register-Bau- 
steinen aufgebaut werden können, und eine schnelle 
und flexible Adressierung ermöglichen. 

— Für manche Algorithmen muß das Auftreten von arith- 
metischen Über- bzw. Unterläufen unbedingt verhin- 
dert werden [3]. Eine in Hardware realisierte, automa- 
tisch arbeitende Begrenzerkennlinie spart Program- 
mieraufwand und Rechengeit. 


Der Mikroprogramm-Speicher (Bild 6) ist vom Steuer- 
rechner aus beschreibbar; ebenso können (bei angehalte- 
nem Systemtakt) einzelne Mikrobefehle direkt in das 
Pipeline-Register geladen, d.h. in ein bestehendes Pro- 
gramm eingeschoben werden. Der Adreß-Stack erlaubt 
die Ausführung von Unterprogrammen; der Repeater 
dient als Schleifenzähler. Im Pipeline-Register sind die 
zur Steuerung der verschiedenen Schaltungsteile benö- 
tigten Mikrowort-Felder. 


3 Software 


Auf dem Steuer-Rechner, einem 8085-System, steht 
im wesentlichen folgende Software zur Verfügung: 
— ein Text-Editor für das Erstellen mnemonisch codier- 
ter Mikroprogramme; 





Bild 6. Mikroprogramm-Steuerung 
des NSP81 
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aktiven Zustand versetzt, die zu den Teilbefehlen 
(Mnemonics) des Mikrobefehls gehören; 
— ein Bedien- und Debug-Programm, das Laden, Modifi- 


- ein Assembler, der für jeden zu übersetzenden Mikro- 
befehl von einem NOP-Mikrowort ausgeht, und 
anhand einer Opcode-Tabelle diejenigen Bits in ihren 
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Bild 7. Maximale Abtastfrequenz f, max in Abhängigkeit vom 
Filtergrad 
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zieren, Starten und Anhalten von Mikroprogrammen 
erlaubt sowie das Betrachten und Verändern von Regi- 
ster- und Speicherinhalten, Adressen usw. 
-ein Bedienprogramm für die bisher programmierten 
Algorithmen [4] (in Klammern Programmlänge): 
1 nichtrekursives, linearphasiges Filter (12 Worte) 
2 nichtrekursives Filter in direkter Struktur (9 Worte) 
3 rekursives Filter als Kaskade von Blöcken 2. Grades 
(24 Worte) 
4 rauscharmes Zustandsraum-Filter nach Zeman und 
Lindgren [5] (50 Worte) 
5 „statische“ Korrelation (22 Worte) 
gleitende Korrelation über kontinuierliche Folgen 
(51 Worte). 
Die mit den digitalen Filtern 1...4 erzielbaren maxima- 
len Abtastfrequenzen sind in Bild 7 gezeigt. 


4 Programmbeispiel 


Abschließend sei in Bild 8 als kurzes Programmbei- 
spiel das Flußdiagramm für das nichtrekursive Filter 
von Bild 2 vorgestellt. Während auf die benutzten Mne- 
monics nicht näher eingegangen werden soll, sei auf die 
folgenden Punkte hingewiesen: 

— jedes Kästchen entspricht einem Mikrobefehl, dessen 
Ausführung 80 ns erfordert; 

— wegen des Pipelinings der Mikrobefehle werden 
Sprünge stets erst im übernächsten Zyklus ausgeführt; 

— die aus zwei Zyklen bestehende Hauptrechenschleife 
wird so oft durchlaufen, bis der anfangs mit dem 
Filtergrad (hier: 8) geladene Repeater durch Dekre- 
mentieren den Inhalt Null erreicht hat; 

- infolge des Pipelinings der Daten ist eine vom Filter- 
grad unabhängige Ein- und Auslaufphase nötig, die 
mit größer werdendem Filtergrad immer weniger ins 
Gewicht fällt (s. auch Bild 7); 

— der X-Bus sowie der Multiplizierer-Akkumulator sind 
während der Hauptrechenschleife voll ausgelastet. Als 
Auslastung des MACs bezogen auf die Gesamtrechen- 
zeit des Filters ergeben sich Werte zwischen 44 % 
(Filtergrad 1) und 99,8 % (Filtergrad 1023). 


Für die Unterstützung der Arbeit möchten die Autoren Herrn Prof. Dr.- 
Ing. H. W. Schüßler ihren besonderen Dank aussprechen. 
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Dr. Sönke Mehrgardt 


32-Bit-Prozessor erzeugt analoge Signale 


Seit mit monolithischen Signalprozessoren auch zeit- 
kritische Probleme ohne großen Hardware-Aufwand 
zu lösen sind, bieten sich solche Bausteine auch zur 
Erzeugung analoger Signale - z. B. in Testsystemen — 
an. Dieser Beitrag stellt Programme für den 32-Bit- 
Signalprozessor TMS 320 vor, die Maximalfolgen, 


Die dargestellten Programmbeispiele sind hinsicht- 
lich kurzer Ausführungszeiten optimiert. Da dies 
(erfreulicherweise) gleichzeitig auch zu Programmen 
führt, die nur wenig Speicher belegen, sind die angege- 
benen Beispiele oft als Teil größerer Programmeinheiten 
direkt verwendbar. Die angegebenen Ausführungszeiten 
gelten für einen Prozessor mit 20 MHz Taktfrequenz, 
entsprechend einem Befehlszyklus von 200 ns. 


1 Maximalfolgen 


Bei vielen Meßaufgaben lassen sich mit Vorteil soge- 
nannte Pseudorauschsignale als Testsignal einsetzen. 
Unter ihnen hat wiederum die Klasse der Maximalfol- 
gen besondere Bedeutung. Die wesentlichen Vorteile 
dieser Testsignale liegen in der Kombination mehrerer 
optimaler Eigenschaften: 

—Das Signal enthält alle Frequenzen des betrachteten 
Frequenzbereiches mit möglichst gleicher Energie 
(„weißes Rauschen“). 

— Das Signal ist exakt reproduzierbar. 

-Das Signal nimmt stets einen von zwei extremen 
Amplitudenwerten an (damit kann ein zu testendes 
System stets mit voller Amplitude ausgesteuert wer- 
den, und das Signal-Rauschverhältnis wird optimal). 

Zusätzlich sind in neuerer Zeit Algorithmen bekannt 

geworden, durch die sich Messungen mit Maximalfol- 

gen-Testsignalen besonders effektiv verarbeiten lassen. 

Diese Algorithmen basieren auf der Fast-Hadamard- 

Transformation (FHT, [1]). Soll z. B. aus einer Messung 

die Impulsantwort des Systems berechnet werden, so 

bieten diese neuen Algorithmen gegenüber der Berech- 
nung mit Hilfe der schnellen Fourier-Transformation 

(FFT) sowohl geringere Ausführungszeiten, als auch 


Sägezahn- und Rechteckschwingungen, Impulsfolgen 
sowie Dreieck- und Sinusschwingungen erzeugen. 
Anhand des Umfanges dieser Routinen können 
zukünftige Anwender leicht abschätzen, mit welchem 
Zeitaufwand sie bei der Lösung ihrer eigenen Pro- 
blemstellung rechnen müssen. 


höhere Genauigkeit wegen fehlender Rundungsfehler: 
Die FHT benötigt nur Additionen und Subtraktionen, 
keine Multiplikationen! Sie ist damit auch besonders 
leicht auf Mikroprozessoren implementierbar. 
Maximalfolgen können durch rückgekoppelte Schie- 
beregister erzeugt werden. Wie Bild 1 zeigt, werden 
dazu einige Stufen des Schieberegisters angezapft, 
addiert (modulo 2, d.h., eventuelle Überträge bleiben 





Serieller 
Eingang 


Ausgang 








Bild 1. Prinzip der Erzeugung von Maximal- | 
folgen mit Schieberegistern. Eine geeignete 
Auswahl von Stufen wird modulo-2-addiert 
(d.h. durch Exklusiv-ODER verknüpft) und 
zum Schieberegistereingang zurückgeführt. 
Die Eigenschaften der Folge am Ausgang 
werden durch die Lage der Anzapfungen 
bestimmt 





30 8 6 5.6 3 721.0 
Ausgang 


Bild 2. Lage der 
Anzapfungen für eine Maximalfolge der Länge 2°° - 1 
mit besonders günstigen Eigenschaften 
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unberücksichtigt) und zum Schieberegistereingang zu- 
rückgeführt. 

Soll die Maximalfolge optimale Eigenschaften haben, 
so müssen möglichst vier oder mehr Anzapfungen ver- 
wendet werden. Bild 2 zeigt die Lage der Anzapfungen 
zur Erzeugung einer solchen „guten“ Maximalfolge mit 
einem Schieberegister von 31 Stufen. Die Folge hat eine 
Periodenlänge von 2°! — 1, das sind 2 147 483 647 
Abtastwerte. Bei einer Abtastfrequenz von 100 kHz wie- 
derholt sich das Signal damit erst nach etwa sechs 
Stunden. 





Speicherbelegung: 





Programm: 

LAC 1, RH BIT 31 

AND KONST 

ADD 9, RL ®BIT6 

AND KONST 

ADD 11, RL ®BIT4 

AND KONST 

ADD 13, RL ®BIT2 

AND KONST 

SACH 1, SCRA 

LAC 0, SCRA (ACC) = BIT31® BIT6 ® BIT4 ©® BIT2 
ADDS RL 

ADDS RL # 2° (RL) 

ADDH RH 

ADDH RH * 2° IRH) 
SACL 0,RL 

SACH 0, RH 


Bild 3. Programm zur Berechnung der Maximalfolge in 
Bild 2. Je Abtastwert wird eine Zeit von 3,2 us benötigt. 
Bei einer Abtastfrequenz von 100 kHz wiederholt sich die 
Folge erst nach sechs Stunden 





Speicherbelegung: 





>» = 3 2 1 0 


& DEE 


een, 
15-Bit -Schieberegister 


5 143 2 ı 0 
R14: 


Programm: 





MXF 15: LAC 14,RS Hole Schieberegister 


SACL 0, R14 Rette Bit b;, 
EXOR R14 Lösche untere Hälfte Akku 
ADD 15, R14 


SACH 1..RS: 
| Bild 4. Realisierung einer Maximalfolge der Pe- 
riodenlänge 2" - 1 = 32 767. Das Programm 
benötigt je Abtastwert nur 1 us 
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Ein Programm zur Erzeugung dieser Maximalfolge mit 
dem TMS 320 zeigt Bild 3. Die vom Programm benutz- 
ten internen Datenspeicher sind ebenfalls angegeben. 
Zur Berechnung eines neuen Folgenwertes benötigt das 
Programm 16 Zyklen, entsprechend 3,2 us. Damit lassen 
sich mit dem Prozessor auch noch bei hohen Abtastfre- 
quenzen Messungen durchführen, bei denen der Prozes- 
sor in Echtzeit das Testsignal berechnet und gleichzeitig 
die Meßdaten erfaßt. 

Werden die Eigenschaften und die große Perioden- 
länge dieser Folge nicht benötigt, so lassen sich einfa- 
chere Folgen verwenden. Bild 4 enthält die nötigen 
Angaben zur Realisierung einer Maximalfolge der Länge 
2’ — 1 mit Anzapfungen der ersten und der letzten 
Schieberegisterstufen. Dieses Programm benötigt zur 
Berechnung eines neuen Folgenwertes nur noch 1 us. 
Ermöglicht wird die geringe Rechenzeit durch die Nut- 
zung der im Befehlssatz vorhandenen Möglichkeiten 
zum Daten-Schieben bei den Speicherzugriffen. 


2 Sägezahn, Rechteck, Dreieck 


Sägezahnschwingungen haben nicht nur Bedeutung 
als Testsignale. Sie werden oft auch bei elektronischer 
Musik eingesetzt, da ein Sägezahn alle Harmonischen 
enthält, so daß sich durch einfache Filterung jede 
gewünschte Klangfarbe erzeugen läßt. 

Den einfachsten digitalen Sägezahngenerator stellt ein 
Binärzähler dar, der im Takt der Abtastfrequenz erhöht 
wird. Wählt man z. B. einen 8stufigen Binärzähler aus, 
so liefern die Ausgänge des Zählers gerade ein Säge- 
zahnsignal von %s der Abtastfrequenz. Sollen jedoch 
bei fest vorgegebener Abtastfrequenz beliebige Frequen- 
zen des Sägezahnsignals einstellbar sein, so ist eine 
leichte Variation dieses Prinzips nötig: Der Zähler wird 
nun nicht einfach inkrementiert, sondern im Rhythmus 
der Abtastfrequenz um einen bestimmten Zahlenwert 
erhöht. Man benutzt dann beispielsweise ein 16-Bit- 
Datenwort und erhöht es in jedem Abtastintervall um 
eine Zahl N (dies ist mit jedem Mikroprozessor sehr 
leicht möglich). Der Algorithmus lautet also: 


(Daten) + N > (Daten) 


Setzen wir der Einfachheit halber eine Abtastfrequenz 
von 2!® = 65 536 Hz voraus, so wird bei einem Wert N = 
1 die volle Sägezahnperiode gerade in einer Sekunde 
durchlaufen. Entsprechend dauert es bei N = 2 dann 
0,5s usw. Die Zahl N entspricht also gerade der Fre- 
quenz der Sägezahnschwingung (in Hz). Damit läßt sich 
bei fester Abtastfrequenz die Sägezahnfrequenz in 1-Hz- 
Stufen über einen weiten Bereich ändern. 

Das Programm auf dem TMS 320 ist sehr einfach und 
benötigt je Abtastwert nur 0,6 us (Bild 5). Weitere Ver- 
feinerungen sind denkbar, wenn mit noch höherer 
Genauigkeit (z. B. 32 Bit) gerechnet wird. Die Frequenz- 
auflösung steigt dann erheblich an. 

Ein generelles Problem bei der Erzeugung solcher 
nicht-bandbeschränkter Signale ist es, daß durch die 
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Verletzung des Abtast-Theorems 


2 SEGN: ZALS SAEGE 
Fehler auftreten. Im vorliegenden ADDS FREQ SPRGEN: ZALS SAEGE 
Fall kann man sich dies wie folgt SACL 0, SAEGE SACH 1, RECT RECHTECKSIGNAL 
atisare Tji E Bild 5. Programm für eine ADDS FREQ | 
vergegenwärtigen: Die berechne a ranscemeung: Der SACL 0,SAEGE SAEGEZAHNSIGNAL | 
ten Zahlenwerte eines Sägezahn- Speicherplatz SAEGE ent- SACH  0,PULS UEBERLAUF GIBT PULS 


generators nach Bild 5 sind gera- 
de die Werte, die man bei Abta- 
stung einer idealen Sägezahn- 


: .e tastwertes 
schwingung der gewünschten 


0,6 us 





hält das Signal und FREQ 
enthält den Frequenzwert N. 
Die Berechnung eines Ab- 
erfordert 


Bild 6. Durch Hinzufügen zweier Befehle wird aus 
dem Sägezahngenerator (Bild 5) zusätzlich ein 
Rechteck- und ein Pulsgenerator. Ein Abtastinter- 


nur vall dauert nur 1 us 








Frequenz mit der gegebenen Ab- 
tastrate erhielte. Da die ideale Sä- 
gezahnschwingung nicht bei der halben Abtastfrequenz 
tiefpaßgefiltert wurde, sondern auch Spektrallinien bei 
höheren Frequenzen enthält, gibt es störende Überlage- 
rungen (Aliasing). Wegen der proportional zur Frequenz 
absinkenden Amplitude der Sägezahn-Harmonischen 
stört dieser Effekt natürlich um so weniger, je tiefer die 
Sägezahnfrequenz im Vergleich zur Abtastfrequenz ist. 

Aus dem Sägezahngenerator lassen sich leicht eine 
Rechteckschwingung und eine Impulsfolge ableiten. So 
ergibt beispielsweise bei dem in Bild 5 dargestellten 
Sägezahngenerator das höchstwertige Bit der 16 Daten- 
bits gerade die Rechteckschwingung, während die Ver- 
wendung des Überlaufes bei der Addition zu einer 
Impulsfolge führt. Ein Programm, das die drei Schwin- 
gungsformen erzeugt, ist in Bild 6 dargestellt. Durch 
geeignete Ausnutzung des TMS-320-Befehlssatzes ist es 
möglich, die drei je Abtastintervall benötigten Werte in 
nur 1us (!) zu berechnen. Diese Signalformen können 
damit auch in zeitkritischen Anwendungen meist noch 
in Echtzeit erzeugt werden. 

Eine weitere Schwingungsform, die leicht aus dem 
Sägezahn herzuleiten ist, ist die Dreieckschwingung. 
Dieses Signal ist in manchen Anwendungen vorteilhaft, 
in denen ein geringer Oberwellengehalt erwünscht ist: 
Während die Sägezahnschwingung alle Oberwellen ent- 
hält (mit Amplituden proportional zu 1/f), besteht die 
Dreieckschwingung nur aus den ungeraden Oberwellen, 


deren Amplituden außerdem wesentlich schneller, pro- 
portional zu 1/f, fallen. 

Aus der Sägezahnschwingung läßt sich die geeignet 
skalierte Dreieckschwingung mit nur drei Befehlen 
berechnen (Bild 7). Das Programm benötigt gegenüber 
dem Sägezahngenerator zusätzlich 0,6 us an Ausfüh- 
rungszeit. 

In Bild 8 sind vier Signale dargestellt, die mit den in 
diesem Abschnitt dargestellten Programmteilen gene- 
riert werden können. Als Frequenzwert wurde N = 6000 
gewählt, entsprechend einer Periodenlänge der Schwin- 
gungen von 2!°/6000 = 10,9 (Abtastintervalle). Die 
erwähnten Probleme bei digitaler Erzeugung nicht- 
bandbeschränkter Signale führen bei den vier Zeitfunk- 
tionen dazu, daß die Periodenlänge um ein Abtastinter- 
vall schwankt: Die mittlere Periode in Bild 8 hat eine 
Länge von nur zehn Abtastintervallen, während die 
übrigen Perioden sich über elf Intervalle erstrecken. In 
der Praxis stört dieses Schwanken (Jitter) der Perioden- 
länge dann relativ wenig, wenn die Frequenz der 
Schwingungen ausreichend tief gegen die Abtastfre- 
quenz ist. 

Besonders eindrucksvoll lassen sich die durch Überla- 
gerung hoher Harmonischer hervorgerufenen Fehler mit 
den Spektren der Signale demonstrieren. Zur Illustra- 
tion zeigen die Bilder 9 und 10 Spektren der Sägezahn- 
bzw. der Dreieckschwingung (obere bzw. untere Kurve 





Speicherbelegung: 


INHALT: Sägezahn Frequenz 4000H Dreieck 
Programm: 
DRGEN: ZALH SAEGE 

ADDH FREQ 

SACH 0, SAEGE Sägezahn berechnet 

ABS Absolutbetrag davon 

SUBH OFFSET minus 4000H 

SACH 1, DREI gibt Dreieckschwingung 


Bild 7. Das Programm erzeugt eine Dreieckschwingung aus 
einer Sägezahnschwingung. Die in 1,2 us (je Abtastwert) 
berechnete Dreieckschwingung ist besonders oberwellen- 
arm 





. 


_E ERBE 
AIAIAN 


le le. le, a. 


Bild 8. Kurvenformen für einen Frequenzwert 
N = 6000. Die Frequenz der Schwingungen 
beträgt also 6000/2"° . Abtastfrequenz 
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dB 
-10 


-20 


-30 
5 Il MM (| 
= IM) ll 


folk f,12 


Frequenz 


Bild 9. Spektrum der Sägezahnschwingung aus 
Bild 8 (obere Kurve). Die große Anzahl von 
Spektralliniien entsteht durch Überlagerung 
(Aliasing) höherfrequenter Harmonischer 











-40 


-50 
0 fs/lt fs/2 


Frequenz 


Bild 10. Spektrum der Dreieckschwingung aus 
Bild 8 (untere Kurve). Gegenüber einer Säge- 
zahnschwingung fehlen die geraden Harmoni- 
schen völlig, und die Amplituden der Spektralli- 
nien fallen wesentlich schneller ab 








in Bild 8). Beim Spektrum der Sägezahnschwingung 
gehören die fünf höchsten Spektrallinien zu den Harmo- 
nischen, die unterhalb der halben Abtastfrequenz lie- 
gen. Alle weiteren Spektrallinien kommen durch die 
Überlagerung der höherfrequenten Harmonischen 
zustande. Ihre Anzahl ist, wegen der nur langsam fallen- 
den Amplituden der Teiltöne, sehr hoch. 

Das wesentlich schneller abfallende Amplitudenspek- 
trum der Dreieckschwingung zeigt Bild 10. Da außerdem 
die geraden Harmonischen entfallen, liegen im darge- 
stellten Amplitudenbereich (bis —50 dB) nur noch acht 





Speicherbelegung 









INHALT: 





Sägezahn | Frequenz 








Filter- 
koeffizienten 


Ausgangsfolge 








Programm 
SINGEN: ZALS SAEGE 
ADD 0, FREQ 
SACL 0, SAEGE Sagezahn berechnet 
LAC *, SAEGE 
ABS 
SUB *, OFFSET Dreieck berechnet 
ER A2 
MPY K2 
LTD Al Bandpaß 
MPY K1 
APAC 
APAC 
SACH 1,A1 Sinus fertig in Al 


Bild 11. Realisierung eines Sinusgenerators durch Bandpaß- 
filterung einer Dreieckschwingung. Die mit „+“ bezeichneten | 
Shift-Werte sind je nach der Sinusfrequenz so zu wählen, daß | 


sich eine optimale Amplitude ergibt 
J 
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Spektrallinien. Wegen der relativ kleinen Störungen 
durch überlagerte höherfrequente Harmonische und 
wegen des Amplitudenabstandes zwischen der Grund- 
welle und der nächsten Harmonischen von 19 dB läßt 
sich aus diesem Signal leicht eine Sinusschwingung 
berechnen. 


3 Sinusgeneratoren 


Digitale Sinusgeneratoren können besonders gute 
Eigenschaften erreichen [2]. Welche Möglichkeiten bie- 
tet dabei der Prozessor TMS 320? 

Der Befehlssatz des TMS 320 unterstützt sehr effektiv 
die Realisierung digitaler Filter. Es ist daher nahelie- 
gend, durch Bandpaßfilterung z. B. einer Sägezahn- oder 
Dreieckschwingung die Sinusschwingung zu gene- 
rieren. 

Ein einfacher digitaler Bandpaß der Mittenfrequenz 
G = 2nfyite/faptası wird beschrieben durch die Differen- 
zengleichung 


+ (2a cosG) - 


Dabei ist e, die Eingangsfolge des Filters und a, die 
Ausgangsfolge. Der Wert a bestimmt die Güte des Band- 
passes, er sollte im Bereich 0,8...0,99 liegen. 

Verwendet man den im vorigen Abschnitt beschriebe- 
nen Dreieckgenerator zur Speisung dieses Filters und 
drückt die Mittenfrequenz G durch die Sägezahnfre- 
quenz N (siehe Bild 5) aus, bei einem Wert a = 0,99, so 
ergibt sich die „Dimensionierung“ 


An = &n + 1,98 - cos (nN/32 768) - a.-ı 


„ee, An-ı -— A au. (a = 0,8...0,99) 


es 0,98 = dn-2 


Das gesamte Programm eines Sinusgenerators nach die- 
sem Prinzip zeigt Bild 11. Man erkennt in den ersten 
drei Befehlen den Sägezahngenerator wieder, während 
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die übrigen zehn Befehle die Umwandlung in die Drei- 
eckschwingung und den digitalen Bandpaß realisieren. 
Die Berechnung eines Abtastwertes ist damit in nur 
2,6 us vollzogen. 

Je nach der eingestellten Frequenz der Sinusschwin- 
gung liegen im dargestellten Beispiel die Amplituden 
der Oberwellen etwa 40...50 dB unter der Nutzschwin- 


gung. Für viele Anwendungen ist dieser Wert völlig 


ausreichend. 

Für sehr hohe Ansprüche muß aber die Sinusfunktion 
wirklich genau berechnet werden. Den schnellsten Weg 
bieten natürlich abgespeicherte Sinustafeln. Jedoch 
steht oft der dazu benötigte große Speicherbereich nicht 
zur Verfügung. Man kann sich dann mit kleineren Tabel- 
len helfen, in denen geeignet interpoliert werden muß, 
um die gewünschte Genauigkeit zu erreichen. So liefert 
beispielsweise die lineare Interpolation einer Tabelle 
der Länge 256 (für eine abgespeicherte Sinusperiode) 
bereits die Sinusfunktion auf 15 Bit genau. 

Eine Untersuchung dieser Möglichkeiten hat jedoch 
ergeben, daß sich eine schnellere und weniger speicher- 
intensive Realisierung der Sinusfunktion durch Poly- 
nomapproximationen ergibt. Die Sinusfunktion wird 
bekanntlich durch die Reihe 


sin(x) = x — x?/3! + x’/5!1 — x /7! +... 


dargestellt. Trifft man einen Kompromiß zwischen 
Genauigkeit und Geschwindigkeit, so reicht eine Appro- 
ximation 5ten Grades aus: Bild 12 zeigt den Fehler der 
Approximation für Werte des Argumentes zwischen 0 
und /2. Während der Fehler der bei x® einfach abgebro- 
chenen Reihe schnell wächst, läßt sich durch eine Opti- 
mierung der Koeffizienten 


sin(x) = 0,9997x — 0,165629x? + 0,0074886x’ 


im dargestellten Argumentbereich eine 14-Bit-Genauig- 
keit erreichen. 

Zur Umsetzung dieser Formel in ein TMS-320-Pro- 
gramm wird die übliche Argument-Skalierung ange- 
nommen, bei der der Wertebereich eines 16-Bit-Zweier- 
komplement-Bruches (-1...0,99997) gerade auf den 
Bereich —n bis + abgebildet wird. Stellt man Argu- 
mente in dieser Normierung dar, so entspricht dem 
Überlauf des Wertebereiches gerade die gewünschte 
Operation „modulo 2“. Die Formel zur Berechnung der 
Sinusfunktion lautet jetzt 


sin(ax) = 3,1407x — 5,1355x? + 2,2917x° 


wobei x nun ein 16-Bit-Zweierkomplement-Bruch ist. 

Im Hinblick auf den Befehlssatz des TMS 320 muß diese 

Formel nochmals umskaliert werden. Gleichzeitig ver- 

wendet man das Horner-Schema, um die Anzahl der 

Rechenschritte zu verkleinern. Die Formel lautet nun 
12864 , > eo 038 9387 „)} 

32 786 32 768 32 768 

Durch Ausklammern des Faktors 8 wird hier erreicht, 

daß nur noch Koeffizienten auftreten, die als 16-Bit- 

Bruch darstellbar sind. 





sin(nx) = 8x 


Die angegebene Polynomapproximation wird nur für 
Argumente im Bereich —n/2 bis n/2 direkt verwendet. 
Die verbleibenden beiden Teilbereiche (-n, —n/2 und 
n/2,n) werden durch eine geeignete Argumentumrech- 
nung auf diesen Bereich zurückgeführt. Im Sinuspro- 
gramm (Bild 13) werden dazu die ersten sechs Befehle 


















a Fs 
ei sin-Reihe bei L 
| x° abgebrochen 
4 [A 
. dto, n* 
24 “optimiert | 2 
0 0 
[ 
-2 F-2 
zz 
0 I Br 
4 ” 2 


Bild 12. Approximation der Sinus-Funktion durch Polynome. 
Bei einfachem Abbrechen der Sinus-Reihe bei x° ergibt sich 
für große Argumente ein großer Fehler. Er läßt sich durch 
Optimierung der Approximation wesentlich verringern 





Speicherbelegung: 





RX ARGUMENT DER SINUSFUNKTION MIT DER NORMIERUNG: 
4000H 2 TU/2 
RSIN ERGEBNIS 
R9387 KONSTANTE 9387 (=KOEFFIZIENT 0,28646 ) 
R21038 KONSTANTE 21038 (=KOEFFIZIENT 0,64194) 
R 12864 KONSTANTE 12864 (=KOEFFIZIENT 0,39258 ) 
RMASK KONSTANTE 8000H 
Programm 
SINS LAC 1, RX 
EXOR RX 
AND RMASK 
BZ SIN 50 
| SUBS RX 
SACL 0, RX 
SIN5O LT RX 
MPY RX 
PAC 
SACH 1, RSIN 
LT RSIN 
MPY R9387 
PAC 
SUB 15, R 21038 
SACH 1, RSIN 
MPY RSIN 
LAC 15, R12864 
LTA RX 
SACH 1, RSIN 
MPY RSIN 
PAC 
SACH 4, RSIN 
(RET) 


Bild 13. Programm zur Berechnung der Sinusfunktion. 
Je nach Wert des Argumentes werden 4,2 us oder 4,6 us 
benötigt 
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Bild 14. Genauigkeit des in Bild 13 dargestellten Program- 
mes. Gegenüber der theoretischen Approximation (Bild 12) 
treten noch zusätzliche Fehler durch Abschneiden der Multi- 
plikationsergebnisse auf. Die erreichte Genauigkeit beträgt 
rund 13,5 Bit 











benötigt. Die eigentliche Polynomapproximation umfaßt 
dann weitere 16 Befehle. Zur Berechnung eines Sinus- 
wertes werden also insgesamt 4,2 us bzw. 4,6 us benö- 
tigt, je nach Wert des Argumentes. 

Abschließend soll erneut die Genauigkeit des Sinus- 
Programmes betrachtet werden. Bei der Realisierung 
tritt durch das Abschneiden niederwertiger Bits der 
32-Bit-Produkte ein zusätzlicher Fehler auf, der die 
ursprüngliche Approximation verschlechtert und außer- 
dem zu einem Überlauf bei den Rechnungen führen 
kann. Die vom dargestellten Programm schließlich 
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erreichte Genauigkeit zeigt Bild 14. Aufgrund der ange- 
sprochenen Probleme ist der Fehler nun, verglichen mit 
Bild 12, etwas gewachsen, und die Sinusfunktion wird 
mit einer Genauigkeit von etwa 13,5 Bit errechnet. 

Zur Realisierung eines digitalen Sinusgenerators läßt 
sich die entsprechende Zahlenfolge 


Sn = sin (2ntnfginus/fAbtası) 


nun leicht berechnen: Das Argument der Sinusfunktion 
liefert gerade der schon dargestellte Sägezahngenerator. 
Bei einer 32-Bit-Rechengenauigkeit werden dazu 1,2 us 
benötigt. Weitere 4,6 us erfordert das Sinusprogramm. 
Addiert man noch die Zeit für die Ausgabe des berech- 
neten Wertes und die Programmschleife, so ergibt sich je 
Abtastwert eine Rechenzeit von nur 6,6 us. 

Der Prozessor kann damit entweder mit der maxima- 
len Abtastfrequenz von 151 kHz Sinusschwingungen 
hoher Qualität (über 80 dB Nebenwellenabstand, Fre- 
quenzbereich 0...70 kHz, Frequenzauflösung 35 uHz!) 
erzeugen, oder aber man nutzt bei geringeren Abtastfre- 
quenzen die verbleibende Rechenkapazität für Auswer- 
tungen oder Nebenrechnungen aus. 
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Linearphasige FIR-Filter 
mit Signalprozessor realisiert 


FIR-Filter lassen sich mit Signalprozessoren relativ 
leicht realisieren. In [1] ist für den Signalprozessor 
WPD 7720 (NEC) das Programm für ein 64gradiges FIR- 
Filter angegeben. In der Praxis reicht dieser Grad 


Bild 1 zeigt das Blockdiagramm des Signalprozessors 
uPD 7720. Während das in [1] angegebene Programm für 
das 64gradige FIR-Filter die Abtastwerte und die Koeffi- 
zienten im RAM speichert, wird hier das gesamte RAM 
für die Abtastwerte benutzt, wobei die Koeffizienten im 
Daten-ROM abgelegt werden, das allerdings nur 13 Bit 
breit ist. 

Bild 2 zeigt die Struktur eines linearphasigen FIR- 
Filters 128. Grades. Die hexadezimalen RAM-Adressen 
für die einzelnen Abtastwerte sind angegeben. 

Die Tabelle zeigt die zugehörige Speicherbelegung. 
Das gewählte Schema hängt mit den in [1] näher 


häufig nicht aus. Daher beschreibt dieser Beitrag ein 
Programm für den Signalprozessor uPD7220, mit des- 
sen Hilfe ein linearphasiges Filter bis zum Grad 
N = 128 realisiert werden kann. 


beschriebenen Manipulationsmöglichkeiten der drei 
höheren Bits des „Data Pointers“ (DPy) zusammen. So 
erlaubt es die Anweisung „M 4“ z. B., die RAM-Adresse 
40H in 00H zu ändern und damit die in der FIR-Filter- 
Struktur (Bild 2) gegenüberliegenden Abtastwerte X, 
und Xı;; sehr einfach zu verknüpfen. 


Das Filterprogramm 


Es soll hier nicht auf jeden Befehl eingegangen wer- 
den. Mit Hilfe der Kommentare und der in [1] gegebenen 
Informationen über den Befehlssatz des Signalprozes- 
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Bild 1. Blockschaltung des Signalprozessors 
uPD 7720 (NEC) 
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Bild 2. Struktur eines linearphasigen FIR-Filters vom Grad N = 
128. Ein Filter vom Grad N = 127 erhält man, wenn das 
Programm - wie angedeutet — X,; nach X,; umspeichert und 
X, immer den Wert O0 hat | 
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** UFD7720 ASSEMBLY LIST %% (24.3.83 ) MODULE FAGE 0001 
(FILTER BIS ZU 128.6RADES ’ 
STNO LOC. SOURCE STATEMENT 


OO0O1 0000 /% RORIKSIKOKOKSKSKOK KORK KK KO KO KK ak KK KK KK K KH KK KK KSKSKO KK KSGKOKOKIKOKK 
0001 0000 * x 
0001 0000 x x 
GO01 0000 x FILTERFROGRAMM x 
oO001 0000 x x 
VO0O1 0000 % * 
9001 0000 RRRRRIRRKIKOKKSKSIGKKOSKSOKOISKOKSKOKOKSIS KIOSK KOKS KO KOKO KO KO KIO KIOSK KOKOKK 


0001 0000 
oO001 0000 


0001 0000 DIESES FILTERFROGRAMM ERMOEGLICHT ES FILTER BIS ZU 128.6RADES 
0001 0000 MIT DEM SIGNALFROZESSOR UFD 7720 ZU REALISIEREN. UM DEN FILTER- 
O001 0000 GRAD ZU VERAENDERN GIRT ES ZWEI MOEGLICHKEITEN: 
VOOOL OOOO 
001 0000 1) BEIM FESTLEGEN DER FILTERKOEFFIZIENTEN DIE NICHT RENOETIGSTEN 
0001 0000 KOEFFIZIENTEN NULL SETZEN. DADURCH WIRD DAS FILTER ZWAR 
001 0000 WIE EIN FILTER 128.6RADES BEARBEITET, JEDOCH WIRD DURCH DAS 
0001 0000 NULLSETZEN DER FILTERKOEFFIZIENTEN DER GRAD AUTOMATISCH 
OOH1 0000 VERRINGERT. 
0001 0000 
0001 0000 2) DURCH VERAENDERUNG DER KONSTANTEN FILGRD IM KOFF DIESES 
0001 0000 FROGRAMMS. BEI HERABSETZUNG DES FILTERGRADES UNTER 96 
0001 0000 IST ES DANN JEDOCH NOTWENDIG, BESTIMMTE FROGRAMMTEILE ZU 
0001 0000 LOESCHEN. DIESE FROGRAMMTEILE WERDEN IM FROGRAMM NAEHER 
OO01 O0O00 BESCHRIEBEN. BREI FILTERN UNTER 44. GRADES EMFFIEHLT ES SICH 
0001 0000 WEGEN DER HOEHEREN VERARBEITUNGSGESCHWINDIGKEIT DAS FROGRAMM 
OO01 0000 DER FA. NEC ZU BENUTZEN. FALLS DIESES NICHT VORLIEGEN SOLLTE 
0001 0000 KANN EIN SOLCHES FILTER NATUERLICH AUCH MIT DIESEM PROGRAMM 

| O0O01 0000 REALISIERT WERDEN. 
0001 0000 
O0O0L OOOO 
9001 0000 NORMALERWEISE IST DIE METHODE 2 VORZUZTEHEN, WEIL SICH DAMIT DIE 
HH01 0000 VERARBEITUNGSGESCHWINDIGKEIT DES FILTERS Z.T. ERHERLICH VER- 
OO01 VOO0O GROESSERT, WAS ZUR FOLGE HAT, DASS HOEHERE ARTASTRATEN BENUTZT 
GOOL 0000 WERDEN KOENNEN. 


oOO01 0000 

0001 0000 

9001 0000 

O001 0000 KONSTANTENDEFINITIONEN 

GO0L OO0OO XK/ 

0001 0000  MFROG; 

0002 0000  FILGRD EQUAL 128D »/% FILTERGRAD DES FILTERS %/ 

0003 0000  ROMEND EQUAL 100OH+FILGRD/2-1 ;/% OBERSTE RBENOETIGTE ADRESSE IM ROMREREICH X/ 
0004 0000  RAMBEG EQUAL. 128D-FILGRD/2 ;7/% STARTADRESSE IM RAMRBEREICH */ 

0005 0000  LINMIU EQUAL. OESH »/% STANDARDADRESSE DER LINMIU ROUTINE X/ 
0006 0000 /% 

0006 0000 

0006 0000 

0006 0000 FROGSRAMMSTART 

0006 OOOO 

OOO& OOOO 

2006 0000 X/ 


| **k UFD7720 ASSEMBLY LIST %% (24.3.83 ) MODULE FAGE 0002 
(FILTER BIS ZU 128.6RADES > 

STNO 1.0C. SOURCE STATEMENT 

0004 0000 ORG OCOH ; 


0007 00C0 FILTER: LDI ®RF,ROMEND ;/% SETZEN DES ZEIGERS AUF ERSTE KONSTANTE %*/ 
0008 00C1 LDI ®DF,RAMBEG ‚/% SETZEN DES ZEIGERS AUF RAMBEG %/ 
0009 O0C2 CALL L.OOF ;/%X BEARBEITUNG DER ERSTEN 16 FILTERWERTE %*/ 


0010 0063 /%X 

V0O1O 00C3 i 

0010 0063 FUER EIN FILTER <= 96.6RADES DIE FOLGENDEN 3 STATEMENTS WEGLASSEN. 
0010 0003 

O010 O0OC3 %X/ 


0010 0003 OF MOV ER,MEM /% ADRESSE 10H Xt111)--) ACCHR %*/ 

0010 0063 DFDEC /% ADRESSE IFH %/ 

O010 0063 Mi »/X ADRESSE OÖFH %X/ 

0011 0004 OrF' MOV ®MEM,B /Xk XC111) VEBERSCHREIBT XC112) %/ 

oo11l O0C4A DFINC /%X ADRESSE O0OH %*/ 

0011 00C4 MS »/X ADRESSE SOH %/ 

0012 0005 CALL. LDOF »/% BEARBEITEN DER NAECHSTEN 16 FILTERKOEFF. %/ 
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0013 00C4 /X 
0013 0006 
0013 00066 FUER EIN FILTER (= 64.6RADES DIE FOLGENDEN 4 STATEMENTS WEGLASSEN. 
0013 0006 
0013 0006 %/ 
0013 00C& OF M2 ;/% ADRESSE 00H --—- ADRESSE 20H X/ 
0014 0007 OF MOV BB,MEM IK X95) =) ACCB %/ 
0014 00C7 DFDEC /% ADRESSE 2FH %/ 
0014 0007 M3 »/% ADRESSE IFH %*/ 
O015 00C8 OF MOV @MEM:B /X X(95) UERERSCHREIBT X{96) %/ 
0015 00C8 DFINC /% ADRESSE 10H %*/ 
0015 00C8 M7 »/% ADRESSE S&0H %/ 
00164 00C9 CALL LOOF »/% BEARBEITEN DER NAECHSTEN 14 FILTERKOEFF.%X/ 
0017 O0OCA /%X 
0017 90CA 
0017 OOCA FUER EIN FILTER {= 32.6RADES DIE FOLGENDEN 3 STATEMENTS WEGLASSEN 
0017 00CA | 
0017 O0OCA  %/ | 
0017 O0CA OF MOV ®B,MEM /X ADRESSE 30H X(79)-—-) ACCR %/ 
0017 00CA DFDEC /% ADRESSE 3FH X/ 
0017 OOCA Mi »/% ADRESSE 2FH %/ 
0018 OOCHE OF MOV BMEM,B /% X(79) VERERSCHREIET X(80) %/ 
o018 OOCH DFINC /%X ADRESSE 20H X/ 
0018 OOCH MS »/% ADRESSE 70H X/ 
0019 OOCC CALL LOOF ;/% BEARBEITEN DER NAECHSTEN 16 FILTER KOEFF  } 
00209 OOCD /% 
0020 OOCD 
0020 OOCD 
O0O20 VOOCD */ 
O020 OOCD OF MOV @ERF,SIM /% EINLESEN DES NEUEN ARTASTWERTES %/ 
OO2O OOCD DFDEC /X ADRESSE 2FH %K/ 
0020 OOCD Mi »/X ADRESSE 3FH %*/ 
0021 OOCE CALL LINMIU ;/%X FILTERERBERNIS LINMIU WANDELN %/ 
0022 OOCF OF MOV ESOM,A /X UND AUSGEBEN X/ 
0022 O0OCF XOR ACCA,IDE;/K ACCA LOESCHEN X/ 
0023 OODO  /X DFDEC FUER N UNGERADE ADRESSE 3EH 
0023 00DO 
0023 O0ODO 
0023 0O0ODO  X/ 
xk  UFD7720 ASSEMBLY LIST XK (24.3.83 ) MODULE FAGE 0003 
(FILTER BIS ZU 128.6RADES > 
STNO LOC. SOURCE STATEMENT 
0023 OODO OF MOV EMEM,TR ;/%* X(63) UERERSCHREIRT X(64) #/ 
0024 OODIL  /X DFINC FÜER N UNGERADE: ADRESSE 3FH %/ 
0024 O0D1 LDI @MEM,OOOOH ;/% FUER N UNGERADE: O0O0OH IN 3FH X/ 
0025 00D2 OF MOV ®TR,RO ;/% HOLEN DES DECODIERTEN EINLESEWERTES %/ 
0026 O0D3 LDI ESKR,0380H ;/% ENARLE INTERUFT %/ 
0027 00D4 JMF $ >/% WARTEN AUF DEN INTERUFT %/ 
0028 O0OD5 /% 
0028 0005 RKRKKOKK KORK 3KOKSKSKKOK SKK SKK OKOKSOKOKOKOKOK KK OK KK OK KK KK 3 KK KK OK KK SKK KK KO KOKOKSKAIGKOKSKOKSOKOKKAKOKOKOK 
0028 O00D5 | 
O028 00D5 UNTERFROGRAMM L.DOF 
0028 00D5 IN DIESEM UNTERFROGRAMM WIRD JEDER EINZELNE EINLESWERT 
0028 O00DS MIT DER ENTSFRECHENDEN FILTERKONSTANTEN MULTIFILIZIERT 
0028 00D5 UND DAS ERGERNIS IM ACCA AUFADDIERT 
0028 O00D5 
OO28 O0ODS %/ 
0028 O0D5 .LOOF: OF MOV @R,MEM ;/% XCI) IN ACCR LADEN %/ 
0027 OOD& OF MOV @EMEM,TR 7/% XCI-1L) RUCKSFEICHERN X/ 
0029 OOD& M4 »/% ZEIGER AUF X(127-1I) SETZEN X/ 
OU30 00D7 OF MOV @TR,B /X XCI) IN TR ZWISCHENSFEICHERN X/ 
0030 00D7 ADD ACCHK,RAM /X X(127-1I) ADDIEREN %X/ 
0030 00D7 DFINC »/%X ZEIGER AUF X(127-1+1) SETZEN X/ 
0031 O0D8 OF MOV ®EKLR,E ;/% MULTIFLIKATIONSWERTE LADEN X/ 
0032 00D9 Of" MOV ®R,MEM /X X(127-I+tl) ==) ACCR %X/ 
0032 00D9 ADD ACCA,M /% FRODUKT AUFADDIEREN %/ 
0032 00D9 DFDEC /% X(127-1) ADRESSIEREN %/ 
0032 00D9 RFDEC »/% NAECHSTEN FILTERKOEFFIZIENTEN ADRESSIEREN 
0033 00DA OF MOV @MEM,B /X X(127-1) MIT X(127-I+1) VERERSCHREIBEN X/ 
0033 00DA DF'INC, /%X XCI+1) ADRESSIEREN X/ 
0033 00DA M4 ; 
0034 OODE JDFLO $+2 »/&K WENN DFL = 0 ENDE DER SCHLEIFE %/ | 
0035 OODC JMF LOOF D 
0036 OODD OF MS /% ZEIGEK MODIFIZIEREN %/ 
00354 OODD RET ;/% RETURN INS HAUFTFROGRAMM %/ 
0037 OODE EOF; 
Bild 3. Ein 128gradiges FIR-Filter läßt sich mit diesem Programm realiseren 
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Bild 4. Frequenzgang eines linearphasigen Tiefpasses 128. Grades, 
der mit dem Signalprozessor uPD 7720 aufgebaut wurde 


sors müßte das Programm (Bild 3) zu verstehen sein. Zur 
Eingabe der Abtastwerte wird ein Codec des Typs 2910 
verwendet, dessen nichtlineare Kennlinie (u-law) bei 
der Eingabe über eine ROM-Tabelle, bei der Ausgabe 
über ein Unterprogramm (LINMIU) entzerrt wird [2]. 
Das Startsignal zum Umsetzen eines Abtastwertes beim 
Codec ist mit dem Interrupteingang des Signalprozes- 
sors verbunden, so daß auch das Programm startet. Am 
Ende des Programms wird der jetzt digital vorliegende 
Abtastwert in das Register TR geladen. Die Laufzeit des 
Programms garantiert, daß die Analog/Digital-Umset- 
zung abgeschlossen ist. 

Will man ein linearphasiges FIR-Filter vom Grad 127 
realisieren, müssen im Programm zwei Befehle geändert 
werden, und ein Befehl ist hinzuzufügen. Darauf wird in 
den Kommentaren hingewiesen. Diese geringfügige 
Änderung ergibt sich nur deshalb, weil die Speicher- 
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Speicherbelegung für die in Bild 2 dargestellte Filterstruktur 





Anz 0000 0001 0010 1110 1111 
H 

100 Xo Xı X, ee er Xu Xıs 
101 Xıs Xır Xıs ; Xzo Xyı 
110 X Xa3 Xzı . Xys Xu 

1 1 1 Xıs Xag Xs5o . Xo2 Xo3 
000 Xıaz Xızs Xızs . Xyıa Xııa 
001 Xın Xı1o Xıo9 . Xor Xos 
010 Kos Xoa Xg3 ; Xsı Xao 
011 Xyg Xp X7 ; Xos Xsa 








platzorganisation wie bei N = 128 beibehalten wurde, es 
ist lediglich dafür gesorgt, daß am Ende des Programms 
X,; nach X,; umgespeichert wird und X;,, immer den 
Wert O hat. 

Das Programm läßt sich auch für Filtergrade N kleiner 
128 verwenden. Auch in diesem Fall sind einige Teile 
des Programms wegzulassen, worauf bei den Kommen- 
taren hingewiesen wird. 


Linearphasiger Tiefpaß 128. Grades 


Mit Hilfe des „Remez-Exchange-Algorithm‘“-Pro- 
gramms [3], das auf der Rechenanlage VAX 11/780 der 
Fachhochschule Furtwangen implementiert ist, wurde 
ein linearphasiger Tiefpaß 128. Grades mit folgenden 
Daten dimensioniert: 


Abtastfrequenz 8 kHz 
Durchlaßgrenzfrequenz 2 kHz 
Sperrfrequenz 2,08 kHz 
Dämpfung im Durchlaßbereich 1,7 dB 
Dämpfung im Sperrbereich 40 dB 


Bild 4 zeigt den gemessenen Frequenzgang des Tiefpas- 
ses. Die Schwankungen im Sperrbereich (<2 dB) sind 
auf die Genauigkeit der Koeffizienten (13 Bit) zurückzu- 
führen. 
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Signalprozessor optimal 
an Mikrocomputer angekoppelt 


Moderne Signalprozessoren - ursprünglich für den 
Bereich der Nachrichtentechnik konzipiert -— werden 
aufgrund ihrer Leistungsfähigkeit auch für Echtzeitan- 
wendungen im Bereich der Meß- und Regeltechnik 
(z. B. Antriebstechnik, Netzschutz) interessant. Hierbei 
wird der Signalprozessor nur in den seltensten Fällen 


Mit der Fortentwicklung der Mikroelektronik rücken 
komplexe Regelverfahren und Identifizierungsalgorith- 
men, die bisher nur theoretisch untersucht werden 
konnten, in den Bereich des praktischen Einsatzes. 
Denkbare Anwendungsbereiche sind: 

— dynamisch hochwertige Regelung von Drehstromma- 
schinen, 

- schnelle Netzzeigeridentifizierung und Fehlerartana- 
lyse nach Störungen im Energieversorgungsnetz (Netz- 
schutz), 

— Koordinatentransformationen bei Industrierobotern, 

—- schnelle Fourier-Transformation zur Oberwellenana- 
lyse und Regelung bei Stromrichtern (Traktionsan- 
triebe). 

Derartige schnelle Echtzeitanwendungen, in denen 
pro Abtastperiode viele Rechenoperationen abgearbeitet 
werden, erfordern Rechner, die erheblich leistungsfähi- 
ger sind als die heute üblichen 16-Bit-Mikroprozesso- 


die gesamte Prozeß-Beobachtung bzw. -Regelung 
allein durchführen können; er muß in ein komplexes 
System integriert werden. Am Beispiel des Bausteins 
7720 werden im folgenden mögliche Konfigurationen 
und Kopplungsarten des Signalprozessors mit seiner 
„Umwelt“ vorgestellt. 


ren. In diesen Fällen mußten bisher „maßgeschneiderte“ 
Rechenwerke vom Umfang mehrerer Europakarten aus 
Bit-Slice-Prozessoren und Hardwaremultiplizierern ein- 
gesetzt werden. 

Von verschiedenen Halbleiterherstellern wurden in 
letzter Zeit spezielle Einchip-Signalprozessoren auf dem 
Markt eingeführt, die diese Anforderungen mit einem 
Minimum an Hardwareaufwand und gleichzeitig hoher 
Flexibilität erfüllen [1]. Durch interne 16-Bit-Architek- 
tur, Parallelstruktur, mehrere Datenbusse sowie Hard- 
waremultiplizierer auf dem Chip, ergibt sich bei den 
genannten Anwendungen ein Vielfaches der Verarbei- 
tungsleistung gegenüber einem 16-Bit-Mikroprozessor. 
Durch den internen Programm- und Datenspeicher ist 
der Aufbau eines kompakten Systems möglich. 

Obwohl ein Einchip-Signalprozessor auch im Allein- 
betrieb einsetzbar ist, wird im allgemeinen Fall ein 
übergeordneter Rechner zur Anpassung von Filterkoeffi- 
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Bild 1. Innerer Aufbau des Signalprozessors 7720 
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zienten, Reglerparametern, Vorgabe von Sollwerten, zur 
Weiterverarbeitung der Ergebnisse oder als Bediener- 
schnittstelle vorhanden sein. Zur Kopplung an den Pro- 
zeß ist in den meisten Fällen eine Analog-/Digital- 
Schnittstelle erforderlich, die sowohl am Mikrorechner 
als auch am Signalprozessor angeschlossen sein kann. 
Die Verbindung beider Prozessoren stellt eine Koppel- 
schnittstelle her, deren Umfang von der zu übertragen- 
den Datenrate abhängt. 


1 Der Signalprozessor NEC 7720 


Im folgenden soll die Problematik anhand des Bau- 
steins NEC 7720 erläutert werden, der praktisch als 
erster leistungsfähiger Einchip-Signalprozessor verfüg- 
bar war. Die typischen Merkmale eines „Signalprozes- 
sors“ werden an der in Bild 1 stark vereinfacht darge- 


steins aufwendiger ist als die Assemblerprogrammie- 
rung von Mikrorechnern. Dafür ergibt sich andererseits 
bei praktisch ausgeführten Programmen zur digitalen 
Signalverarbeitung z. B. gegenüber einem 8086 mit 
8-MHz-Takt eine Laufzeitverbesserung um den Faktor 
5...20. Für die Ankopplung des Signalprozessors an 
seine Umgebung bestehen verschiedene Möglichkeiten, 
abhängig von den Anforderungen an das Gesamtsystem. 


2 Schnittstellen 


Bei der Regelung bzw. Identifizierung eines techni- 
schen Prozesses mit einem Rechner sind pro Abtastin- 
tervall eine Reihe von Abtastwerten in den Rechner 
hinein- und eine Reihe von Stell- bzw. Ergebnisgrößen 
herauszutransferieren. 

Bei einem schnellen oder komplexen Prozeß, für den 


werden soll, wird die Tatsache 





Bild 2. Anschluß von 
Analogperipherie an 
ein Stand-alone-Si- 


Analog-Ein | 
gnalprozessorsystem 








CLK (1MHz) 








| bedeutsam, daß dieser Bau- 

stein in der Abarbeitung arith- 
| metischer Befehle sehr schnell 
ist, der Datentransfer hingegen 
wegen der relativ langsamen 
seriellen Schnittstellen des Si- 
gnalprozessors bzw. der be- 
grenzten Arbeitsgeschwindig- 
keit der am Transfer beteilig- 
ten Systembausteine (z. B. an- 
gekoppelter Mikrorechner) 
verzögert wird. 

Ein Signalprozessor kann in 
verschiedenen Systemkonfigu- 
rationen betrieben werden. 
Den einfachsten Fall bildet der 
Alleinbetrieb (Stand-alone). 
Hier bietet sich beim 7720 die 
Verwendung der seriellen 
Schnittstellen an. In Ein- und 





ein Signalprozessor eingesetzt 
Analog-Aus A 











stellten inneren Struktur deutlich. Befehls- und Daten- 
festwertspeicher, Schreib-/Lesespeicher, 16x 16-Bit- 
Multiplizierer, arithmetisch/logische Einheit sowie 
serielle und parallele Schnittstelle sind auf dem Chip 
durch mehrere Busse miteinander verbunden. Diese 
interne Parallelstruktur ermöglicht das gleichzeitige 
Abarbeiten von mehreren verschiedenen Operationen in 
einem Befehlszyklus (250 ns). Folgende drei Operatio- 
nen können beispielsweise simultan ablaufen: 
— Laden von zwei 16-Bit-Faktoren in den Multiplizierer, 
Multiplikation. 
— Verschieben eines Datenwortes vom RAM zur ALU 
(Operand 1). 
— Arithmetische Verknüpfung von Operand 1 mit dem 
Inhalt eines Akkumulators. 
Das Beispiel läßt bereits vermuten, daß eine alle Mög- 
lichkeiten ausnutzende Programmierung dieses Bau- 
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Ausgaberichtung steht je ein 
Kanal mit einer Datenrate von 
2 MBit/s zur Verfügung. Es lassen sich mit geringem 
Hardwareaufwand D/A-Umsetzer mit serieller Schnitt- 
stelle oder A/D-Umsetzer nach dem allseits bekannten 
Verfahren der sukzessiven Approximation anschließen. 
Bild 2 zeigt die schematische Darstellung eines Systems 
aus einem Signalprozessor mit zwei 8-Bit-Analogein- 
gängen und zwei 8-Bit-Analogausgängen. Ein Taktsi- 
gnal, das die Abtastrate des Systems definiert, versetzt 
die Abtasthalteverstärker in den Haltezustand und star- 
tet den ersten A/D-Umsetzer. Parallel zur Umsetzung 
gelangen die Datenbits seriell (MSB zuerst) an den 
seriellen Eingang des Signalprozessors. Mit der Fertig- 
meldung (Status) des ersten Umsetzers wird der zweite 
gestartet und der Multiplexer auf diesen Baustein umge- 
schaltet. Nach Abschluß der zweiten Umsetzung wird 
ein Interrupt für den Signalprozessor ausgelöst, um die 
Verarbeitung der Werte zu veranlassen. Sobald die Aus- 
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gabewerte des Signalprozessors vorliegen, fordert er 
über die Leitung SORQ eine serielle Ausgabe an. Syn- 
chronisiert mit dem Ausgabetakt wird auf der Leitung 
SOEN die serielle Ausgabe freigegeben. Die verwende- 
ten 8-Bit-D/A-Umsetzer besitzen integrierte Schieberegi- 
ster, die in Reihenschaltung vom seriellen Ausgang SO 
gespeist werden. Am Ende des Schiebevorgangs (16 Bit) 
werden die Daten mit der Rückflanke von SOEN gleich- 
zeitig in die Halteregister der beiden D/A-Umsetzer 
übernommen. 

Die maximale Datenrate, die mit den seriellen Schnitt- 
stellen möglich ist, beträgt bei 16-Bit-Umsetzern etwa 
125 kHz. In dieser Konfiguration lassen sich bereits 
komplexe digitale Filter, auch nichtlinearer Art, oder 
Regelalgorithmen (PID-Regler mit variabler Begrenzung) 
für hochdynamische Regelstrecken realisieren. 

Reicht im Stand-alone-Betrieb die Leistungsfähigkeit 
der seriellen Schnittstellen nicht aus, weil in kurzer Zeit 
eine größere Anzahl von Werten zu transferieren ist, so 
bietet sich eine Erweiterung des Prozessors um eine 
aktive Busschnittstelle an. Die frei programmierbaren 
Portleitungen PO und P1 veranlassen einen PAL-Bau- 
stein, die Adresse aus dem Prozessor zu lesen und zwei 
Buszyklen für die Übertragung der 16-Bit-Daten vorzu- 
sehen. Die Richtung des Transfers wird durch das Bit 
R/W gesteuert, das zusammen mit der Adresse überge- 
ben wird. Mit dieser Lösung lassen sich 16-Bit-Daten in 
etwa 2,5 us (16-Bit-Adreßraum) übertragen (Bild 3). 

Sollen die Parameter des Filteralgorithmus im Signal- 
prozessor von außen einstellbar sein oder wird eine 
Weiterverarbeitung von Ergebnissen des Signalprozes- 
sors mit niedriger Datenrate verlangt, so ist hierfür ein 
zusätzlicher Prozessor erforderlich, z. B. ein 8-Bit-(Ein- 
chip-)Mikroprozessor. Damit wird der Signalprozessor 
zu einem intelligenten Peripheriebaustein. Die Ankopp- 
lung an einen 8-Bit-Mikroprozessor ist im allgemeinen 
ohne besonderes Interface möglich. Die Datenraten des 
Transfers sind nicht durch den Signalprozessor, son- 
dern durch die Verarbeitungsleistung und Busband- 
breite des Mikroprozessors begrenzt (Z80A etwa 5 us pro 
16-Bit-Wort). 

Wird der Signalprozessor innerhalb eines komplexen 
Systems zur Übernahme sehr rechenintensiver Teilauf- 
gaben eingesetzt und ist die Weiterverarbeitung seiner 
Ergebnisse in Echtzeit erforderlich, ist es sinnvoll, ihn 
mit einem leistungsfähigen 16-Bit-Prozessor zu koppeln. 
Dabei stehen drei Möglichkeiten zur Wahl: 

— direkte Ankopplung über 8-Bit-Schnittstelle, 

— Verwendung eines DMA-Bausteins, 

— Zwischenschaltung eines 8-/16-Bit-Multiplexers/-De- 
multiplexers. 

Der erste Fall entspricht der Ankopplung eines 8-Bit- 

Mikroprozessors und ist mit dem geringsten schaltungs- 

technischen Aufwand verbunden, es ergibt sich jedoch 

keine volle Ausnutzung der Busbandbreite des angekop- 

pelten 16-Bit-Prozessors. 

Läßt das System den DMA-Betrieb zu, so sollte diese 
Alternative gewählt werden, da damit die maximale 

















Bild 3. Aktives 
Businterface für 
7720 








CLK(8MHz) 











Datenrate erzielbar ist (z. B. 8237: 1,25 us, 8089: 2,4 us; 
jeweils pro 16-Bit-Wort). Eine sehr elegante Lösung 
ergibt sich unter Verwendung des E/A-Prozessors 8089 
zur Ankopplung des 7720 an ein System mit der CPU 
8086 (Bild 4). Jeweils einer der beiden DMA-Kanäle des 
8089 arbeitet in Ein- bzw. Ausgaberichtung zum 7720. 
Der Signalprozessor wird in die Betriebsart DMA-Mode 
versetzt. Der Transferanstoß erfolgt über die DMA- 
Anforderung des 7720 (DRQ); PO wählt den Kanal und 
damit die Richtung des Transfers; die Beendigung des 


Transferzeiten mit verschiedenen Prozessoren/Hardware- 
konfigurationen 








Konfiguration 













(2) serielle 


Stand-alone mit 








serieller Schnittst. 7,7 us Schnittst. 7720 
Stand-alone mit (3) Parallel- 
Parallelschnittst. 1,0 us Schnittst. 7720 
7720 mit 8-Bit-M. 

a) 8048 (6 MHz) 22,5 us 8048 

b) 480A (4 MHz) 5,0 us Z80A 


7720 mit 16-Bit-M. 











a) 8088 4,25 us 8088 
b) 8086 direkt 3,75 us 8086-2 
c) 8086-Interf. (4) | 2,5 us 8086-2 
7720 mit DMA-Baust. 

a) 8089 (5 MHz) (5) | 2,4 us 8089 
b) 8237 1,25 us 8237 





Anmerkungen: (1) mit Mikrorechner: Speichertransfer, (2) vgl. Bild 2, 
(3) ohne Adreßausgabe, vgl. Bild 3, (4) vgl. Bild 5, (5) vgl. Bild 4 
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Bild 4. DMA-Kopplung zwischen 
8086 und 7720 über den 
Ein-/Ausgabe-Prozessor 8089 





Bei der Kopplung eines 7720 über ein derartiges Inter- 
face an einen am Institut für Regelungstechnik der TU 
Braunschweig entwickelten Einkarten-Mikrocomputer 
mit der GPU 8086-2 (8 MHz) ergaben sich Transferzeiten 


von 2,5 us pro 16-Bit-Wort. 


3 Anwendungsbeispiele 


Standard-Mikrocomputer werden schon für viele 
Steuer- und Regelaufgaben bei geringen bis mittleren 
Anforderungen an die Verarbeitungsgeschwindigkeit 
industriell eingesetzt. Hingegen stößt man bei Anwen- 
dungen, die eine hohe Abtastrate verlangen, schnell an 
die Grenzen ihrer Leistungsfähigkeit, die auch durch 
erhöhten Programmieraufwand (Beschränkung auf Inte- 








Transfers erfolgt über P1/ 
EXT oder durch Zählung 
der übertragenen Bytes 
im 8089. 

Bei Systemen ohne 
DMA-Möglichkeit stellt 
eine Schaltung nach Bild 
5 einen guten Kompro- 
miß dar. Der 16-Bit-Bus 
(z. B. des 8086) ist über je 
zwei 8-Bit-Register für 
beide Datenrichtungen 
mit dem 8-Bit-Bus des 
Signalprozessors Ver- 
bunden. 

Ein Schaltwerk, das als 
Eingangssignale die Bus- 
steuersignale des 16-Bit- 
Prozessors und die vom 
Programm des Signalpro- 
zessors steuerbare Aus- 
gabeleitung PO verarbei- 
tet, steuert den Multi- 

plex-/Demultiplex-Be- 
trieb der 8-/16-Bit-Daten. 
Jeder Buszyklus des 16- 
Bit-Prozessors wird durch 
das Steuerwerk in zwei 
Buszyklen des Signal- 
prozessors umgesetzt. 
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00:3 0 ROWR Bild. 16-Bit-Interface zwischen 8086-2 und 
7720 mit Schaltwerk 
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gerrechnung, Assembler- 
programmierung) nicht 
überwunden werden 
können. Als Beispiel sei- 
en hier zwei Forschungs- 
projekte aus dem Institut 
für Regelungstechnik der 

TU Braunschweig ge- 

nannt: 

— die Lage-Regelung ei- 
ner Asynchronmaschi- 
ne in Feldkoordinaten, 

- die schnelle Netzzei- 
gererkennung im Dreh- 
Stromversorgungsnetz 
unter Verwendung von 
diskreter Fouriertrans- 
formation und Regres- 
sionsfiltern (selektiver 
Netzschutz). 

In beiden Fällen sind 

aufwendige Rechenalgo- 

rithmen erforderlich. Bei 
diesen Anwendungen 
wurde jeweils ein Signal- 
prozessor über ein Inter- 
face gemäß Bild 5 an den 

Prozessor 8086-2 gekop- 

pelt. 

Bei der Regelung der 
Asynchronmaschine 
sind pro Abtastschritt 20 
Multiplikationen mit 16 
Bit erforderlich. Ein 
8086-2 (8 MHz) benötigt 
für die Abarbeitung des 
gesamten Regelalgorith- 
mus 800 us. Um die 
Rechnung zu beschleuni- 
gen, wurden die gesam- 
ten Regelprogramme für 
die Asynchronmaschine 
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auf den Signalprozessor übertragen. Sie füllen den Pro- 
grammspeicher zu etwa 85%. Der Datenspeicher wird 
von den Variablen der Regelung zu etwa 60% belegt. 
Nach Einsatz des Signalprozessors konnte die Abtastrate 
auf 100 us gesenkt werden, so daß der Betriebsbereich 
der Regelung auf schnellaufende Servomotoren mit 
Ständerfrequenzen bis zu 500 Hz erweitert wird. Bild 6 
zeigt gemessene zeitliche Verläufe von Drehzahl, Dreh- 
moment und Ständerströmen während eines Reversier- 
vorgangs bei 1000 U/min einer leerlaufenden 1,5-kW- 
Kurzschlußläufer-Asynchronmaschine an einem 8-kVA- 
Transistorwechselrichter. Er ist in weniger als einer 
Schwingung der Ständerfrequenz abgeschlossen. 

Im zweiten Anwendungsfall arbeitet der Signalpro- 
zessor als Coprozessor neben dem 8086-2 in einem 
Rechner für den Netzschutz. Hierbei besteht das zentrale 
Problem in der schnellen Identifizierung der Netzzeiger 
im Störungsfall (Kurzschluß). Der Signalprozessor über- 
nimmt hierbei die Berechnung 
- der drei Stromzeiger mit diskreter Fouriertransforma- 

tion (DFT) oder mit Regressionsfiltern (bis 20. Ord- 

nung), 
- die Transformation der Zeiger in die „symmetrischen 

Komponenten“ (Bild 7). 

Das System arbeitet mit einer Abtastrate von 1600 Hz. 
Innerhalb eines Abtastintervalls von 625 us werden im 
Programm des Signalprozessors unter anderem 150 Mul- 
tiplikationen (entsprechend 240 000 Multiplikationen/s) 
durchgeführt. Fünf 16-Bit-Worte müssen pro Abtastpe- 
riode in den Signalprozessor hinein- und bis zu sieben 
Werte müssen heraustransferiert werden. Eine block- 
weise Datenübergabe zwischen den beiden Prozessoren 
ist erwünscht, um die Programme weitgehend zu ent- 
koppeln; die entstehende Transferzeit von 30 us macht 
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Bild 6. Reversiervorgang einer leerlaufenden Asyn- 
chronmaschine: Derartige dynamische Eigenschaften 
konnten bisher nur mit speziellen Gleichstrommaschi- 
nen erreicht werden 











bereits etwa 5% der Rechenzeit aus. Dies unterstreicht 
die Bedeutung der Auswahl der optimalen Interface- 
schaltung zwischen Mikrorechner und Signalprozessor. 


Es handelt sich um eine Mitteilung aus dem Institut für Regelungstechnik der 
TU Braunschweig. 
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Bild 7. Netzzeigeridentifikation mit Signalprozessor aus dem 
Verlauf von Strom und Spannung 
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Dr.-Ing. Herbert Hanselmann 


Tischrechner programmiert Signal- 
prozessor als digitalen Mehrgrößenregler 


Für anspruchsvolle Aufgaben der Regelung dynami- 
scher Systeme werden zunehmend die neueren 
Methoden der Regelungstechnik eingesetzt, die bei 
voller Ausnutzung ihrer Möglichkeiten auf Regler 
höherer Ordnung mit mehreren Eingängen (Meßgrö- 
Ben der Regelstrecke) und Ausgängen (Stellgrößen) 
führen [1, 2, 3]. Aber auch konventionelle Konzepte 
wie die Kaskadenregelung bei Gleichstromantrieben 


Die Realisierung solcher Regler mit analogen Mitteln 
kann wegen der hohen Anzahl dynamischer Elemente 
und der gegebenenfalls starken Vernetzung untereinan- 
der zu erheblichen Problemen führen, die eine digitale 
Realisierung ratsam erscheinen lassen. Bei schnellen 
Regelstrecken, wie sie z. B. in der Elektromechanik und 
Elektrohydraulik vorkommen, müssen allerdings Tast- 
raten bis in den kHz-Bereich erzielt werden. Hier sind 
selbst moderne 16-Bit-Mikroprozessoren schnell über- 
fordert. Mit einem oder mehreren parallel- oder in Serie 
geschalteten Signalprozessoren des Typs 2920 (Intel) 
können die zeitaufwendigen Filter-/Regleroperationen 
zum Teil auf analoger Ebene vom Mikroprozessorsystem 
abgezogen werden [4, 5,6]. Wo die 9-Bit-A/D-Umset- 
zung ausreicht, sind auch Regler allein auf der Basis von 
2920-Bausteinen möglich. 

Die Programmierung des 2920 für den beschriebenen 
Zweck sollte soweit wie möglich automatisch erfolgen. 
Zum einen, weil die Programmstruktur komplexer wird 











Bild 1. Mehrgrößenregler/Filter in Zustandsform 








führen auf komplexere Systeme, wenn besondere 
regelungstechnische Maßnahmen wie Führungsgrö- 
Benfilterung oder Kompensation schwingender Teilsy- 
steme ergriffen werden sollen. Der folgende Beitrag 
beschreibt ein Programmsystem für FORTRAN- 
Tischrechner, das zusammen mit dem preiswerten 
„2920 System Design Kit“ die automatische Program- 
mierung des Signalprozessors 2920 erlaubt. 


als für ein übliches digitales Filter, zum anderen, weil 
ein Regler in den seltensten Fällen vom grünen Tisch 
weg endgültig realisiert werden kann. Meist sind noch 
Korrekturen nötig, die dann auch möglichst schnell 
umsetzbar sein sollten. Mit dem im folgenden beschrie- 
benen Programmierungssystem wird der Zeitaufwand 
für die Programmierung eines zahlenmäßig vorliegen- 
den Mehrgrößenreglers bzw. -filters auf wenige Minuten 
reduziert. 


1 Lineare digitale Mehrgrößenregler 


Unabhängig von der Vielfalt der Methoden zur Ausle- 
gung und Berechnung digitaler Mehrgrößenregler ist das 
Endprodukt im allgemeinen entweder direkt das fol- 
gende Gleichungssystem (Bild 1), oder man kann es in 
diese Form bringen. 


X Axıı + Bur.ı (1) 
oder 

x =Ax+Buy 

yx=Cx+Du (2) 


Dabei sind die Elemente u; des Vektors (Anordnung der 
Elemente für Matrixschreibweise) 


Uik 
|; (3) 
Upk 


die Werte der p Eingangsgrößen des Reglers zum Zeit- 
punkt KT, mit T als konstante Tastzeit. Die Elemente des 
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Vektors yı sind in entsprechender Weise die Werte derq 
Ausgangsgrößen des Reglers zum Zeitpunkt KT. Der 
Vektor xx enthält die n internen zeitveränderlichen Grö- 
ßen des Reglers. Bei einem auf übliche Weise dargestell- 
ten digitalen Filter würden diese Größen die Ausgangs- 
größen der z"'-Blöcke repräsentieren [4, 5, 6]. Die Matri- 
zen A, B, C, D enthalten als Elemente die konstanten 
Koeffizienten des Reglers/Filters. 

Die kompakte formalisierte Darstellung des Reglers/ 
Filters in Zustandsform (Gleichung 1 und 2) ermöglicht 
eine systematische automatisierte Umsetzung in ein 
2920-Programm. Liegt der Regler zunächst nicht in 
Zustandsform, sondern in Form von z-Übertragungs- 
funktionen vor, so muß eine dazu passende Zustands- 
realisierung gefunden werden. Daß dies im konkreten 
Fall recht einfach möglich ist, soll das folgende kleine 
Beispiel zeigen. 

Beispiel: PID-Regler mit Führungsgrößenfilterung 
(Bild 2). 
Durch Einführung der sogenannten Zustandsgrößen 


Xı...x, an den Ausgängen der z’'-Blöcke erhält man für 
den Zeitpunkt KT 


Xık =-BoxXax.ı + K (Oo - 0 Bo) fr-ı 

Xk = Xık.ı - Pı Xacı + K (a1 - 9 Ph) fon 
Xx=hXRkı tm Kofi - Ama 

xx = MhXxı tie K a fkı - Ar me + Ay Ka ka 


Sk =—Xzk + (Aı + Ao) Xzk (5) 
+ (1 + do) Kay fk- (Aı + Ao) MR + Xak 


Mit (4) und (5) ist die Darstellung nach (1) und (2) im 
Prinzip gefunden, sie kann noch formal angepaßt wer- 
den mit 


“= (m) 


als dem Vektor der Regler-Eingangsgrößen, und 

Yk= Sk 

als der hier zu einem Skalar reduzierten Ausgangsgröße. 
Die Matrixschreibweise erhält man mit 


a a ı 
= 1 -ß 0 
A= 1 
. 0 40 
oe 8 


=.©.0 © 


3 

Ka, + Ko, 0 
Ka 0 

B= 1 

Ex Ka, 2 Ai 

9 Ka, = Ay 





IN 


— (0, kı + Ass >= 1, T); 
= ((Aı + %) Ka, - (Aı + A). 


oO 


2 Struktur und Generierung des 2920-Programms 


Von der Struktur eines Programms für ein auf übliche 
Weise realisiertes Digitalfilter [4] unterscheidet sich die 
hier benötigte Struktur, abgesehen von der Zustands- 
form, noch im folgenden: 

a) Es sind im allgemeinen mehrere Ein- und Ausgänge 
vorhanden. 
b)Es kommt darauf an, zwischen dem Abtasten der 

Eingangsgrößen und der Ausgabe der Ausgangsgrö- 

ßen möglichst wenig Zeit verstreichen zu lassen, da 

diese Zeiten als Totzeiten im Regelkreis wirksam 
werden. 

Um a) und b) gerecht zu werden, kann das 2920- 
Programm nicht einfach die Gleichungen (1) und (2) 
nacheinander abarbeiten. Vielmehr müssen die im 
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Sinne von b) zeitkritischen Teile bevorzugt behandelt 
werden. Dies hat einige Konsequenzen für die Anord- 
nung der Operationen im Programm wie auch für die 
Reihenfolge der Sourcecodeerzeugung für die einzelnen 
Teilaufgaben, die zur Bearbeitung der Reglergleichun- 
gen nötig sind. 

Das Programm wird von einem in Mikrorechner- 
FORTRAN-80 geschriebenen Generatorprogramm als 
Sourcecode-Textfeld mit 192 Instruktionszeilen erzeugt. 
Darin sind eine Instruktionsnumerierung und ein auto- 
matisch erzeugter Kommentar mit enthalten. Das Gene- 
ratorprogramm berücksichtigt die schaltungsspezifi- 
schen Daten (z. B. Anzahl der NOP-Instruktionen nach 
der Abtastung) und liest die numerischen Daten A, B,C, 
D des Reglers von der Floppy-Disk. Die Umsetzung in 
Sourcecode erfolgt dann ohne weitere Eingriffe des Be- 
nutzers. 

Der prinzipielle Ablauf beim Aufbau des Source- 
codes soll an Hand von Bild 3 erläutert werden. Der 
spätere Programmablauf im 2920 entspricht der Pfeil- 
richtung von oben nach unten. Die Reihenfolge, in der 
die einzelnen Programmabschnitte im Tischrechner 
erzeugt werden, entspricht der Pfeilrichtung von links 
nach rechts. Es wird vereinfachend angenommen, daß 
zwei Eingänge und ein Ausgang vorliegen. Die Eintra- 
gung der Elemente a;,,... der Matrizen A, B, C, D soll 
bedeuten, daß im zugehörigen Programmabschnitt die 
entsprechenden Matrixelemente gemäß (1) und (2) ver- 
arbeitet werden. Die Abarbeitung dieser Arithmetikope- 
rationen läuft im 2920 parallel zu den Analogoperatio- 
nen ab. Es kommt darauf an, diese Parallelität optimal 
auszunutzen, nicht nur wegen der Abtastzeit, die direkt 





Reihenfolge der Sourcecodegenerierung 
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Bild 3. Beispiel zur Aufteilung der 2920-Operationen 
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proportional zur Anzahl belegter Instruktionen ist, son- 
dern auch wegen des begrenzten Programmspeichers 
des Prozessors. Bei maximal 192 Instruktionen hat man 
wenig zu verschenken, wenn auch Regler etwa der Ord- 
nung 5 oder höher mit mehreren Ein- und Ausgängen 
mit einem einzigen Chip realisiert werden sollen. Allein 
eine 9-Bit-Umsetzung benötigt bei 5 MHz Taktfrequenz 
und einem 300-pF-Sampling-Kondensator schon 34 
Analoginstruktionen. 

Beim Aufbau des Sourcecodes am Tischrechner wer- 
den vom Generatorprogramm zunächst die Analogbe- 
fehle für Abtasten und Umsetzen (IN/CVT-Sequenzen) 
am Programmanfang festgelegt (Bild 3). Daran anzuhän- 
gen sind die d-Sequenzen, d.h. die Verarbeitung der 
umgesetzten Abtastwerte u; über die Matrix D. Die Addi- 
tion zum Term Cx« wird dabei gleich mit erledigt. Der 
Term Cxx liegt vom vorherigen Programmdurchlauf des 
2920 schon fertig vor, er hängt nicht von den gerade 
gelesenen Eingangsgrößen u; ab. Die Ausgabe der Aus- 
gangsgröße y ist deshalb sofort nach Einrechnung des 
letzten D-Koeffizienten gemäß (2) möglich. Damit wird 
der kleinstmögliche Zeitverzug im Sinne von b) erreicht. 

Die Bearbeitung der Gleichung (1), also die zu A,B,C 
gehörenden Arithmetikoperationen sind nicht zeitkri- 
tisch, sie werden deshalb nach der Festlegung der Ein-/ 
Ausgabe- und d-Sequenzen lückenlos auf die noch 
freien Arithmetikinstruktionsfelder verteilt. So wird im 
Beispiel von Bild 3 mit der Verarbeitung der Elemente 
b;, der 1. Spalte von B unter Verwendung von u, begon- 
nen, sobald bei den zeitkritischen Operationen eine 
Lücke entsteht, also zwischen den beiden d-Sequenzen. 
Könnte die Verarbeitung der b;, diese Lücke nicht ganz 
ausfüllen, würde die noch verbleibende Lücke mit 
Instruktionen zu den Elementen a;; von A aufgefüllt 
usw. (Bild 4). Das Generatorprogramm muß in allen 
Fällen die entsprechende Aufteilung der Arithmetik 
automatisch vornehmen können, weil die optimale Lage 
der einzelnen Arithmetik-Sequenzen abhängig vom 
Zahlenmaterial stark variieren kann. 

Soweit bis jetzt beschrieben, bleibt die erste IN/CVT- 
Sequenz für die Arithmetik noch ungenutzt. Um auch 
diese Instruktionen ausnutzen zu können, ermöglicht 
das Generatorprogramm eine Verschiebung von Instruk- 
tionen aus dem letzten Programmabschnitt in die erste 
IN/CVT-Sequenz. Diese Verschiebung wird dann nötig, 
wenn sonst mehr als 192 Instruktionen belegt werden 
müßten. In den anderen Fällen dient sie zur Minimie- 
rung der Programmlänge bzw. Abtastzeit. 

Gegenüber Bild 3 enthält das reale 2920-Programm 
noch einige weitere Sequenzen, in denen Umspeiche- 
rungen (z. B. Inhalt des x,-Speichers > Inhalt des xx.ı- 
Speichers im nächsten Durchlauf) und Vorbelegungen 
von Speicherplätzen erfolgen. In Bild 4 ist für einen 
Regler mit zwei Eingängen und einem Ausgang das 
generierte Programm angegeben, der Übersichtlichkeit 
wegen ohne die angesprochene Minimierung der Pro- 
grammlänge. 

Der Sourcecode von Bild 4 zeigt noch eine bisher 
nicht erwähnte Besonderheit. Soll z. B. der Koeffizient 
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suy 


ADD 


LDA 
LDA 
SUB 
ADD 
ADD 
ADD 
ADD 
SUB 
ADD 
LDA 
ADD 
LDA 
LDA 
ADD 
SUB 
ADD 
ADD 
ADD 
ADD 
ADD 
ADD 
ADD 





ADD 
ADD 
SUB 
SUB 


DAR. DAR, K00. IND 
AND 
‚INO 
‚INO 
‚IND 
‚NOP 
‚NOP 
‚CcVTä 
DAR .,KM2,R00,CND& 
‚NOP 
‚NOP 
„EVT7 
‚NOP 
‚NOP 
‚CVT6 
‚NOP 
‚NOP 
‚CVT5 
‚NOP 
‚NOP 
‚CVT4 
‚NOp 
‚NOP 
‚CvT3 
‚NOP 
‚NOPp 
‚CcVT2 
‚NOP 
‚NOP 
‚cvTi 
.NOP 
‚NOP 
Y01,W01,R00,CVTO 
V01,DAR,ROO,NOP 
DAR,DAR,ROO, INI 
Y01,U01,R0O1.,INI 
Y01,0U01,R02,1NI 
YO1.UV01,R04.INI 
Y01.001,R05, IN 
YO1,U01,RLL,NOP 
Y01.1U01.R13,NOP 
X01,KPO,ROO,CVTS 
DAR,KM2.,R00,CND6 
X02,KPO0,R00,NOP 
X03,KPO.,RO0,NOP 
X01,U01,R11,CVT? 
%X02,U01,R13,NOP 
X03,1U01,R04,NOP 
%203,0U01,R06,CVT& 
X03,0U01,R07,NUP 
xX03,U01,R10,NOP 
xX03,U01.R12,CVT5 
xX03,U01,R13,NOP 
X01,201,R00,NOP 


EUR] x0ı.z01ı,Ros,cvra 


X01,Z01,R12,NOP 
%X01,201,R13,NOP 
%X02,201,R08,CVT3 
%X02.Z01,R11.,NOP 


Beginn kıngabe VI 


Ende Eınoabe Ui 
Beginn Eingabe U2 
D(1,0 
D(1,1) 
D(1,0) 
D(1,2) 
Di1l,1) 
D(i,0) 


Bt1,0D 
B(2.1) 
B(3,1) 
B(3,1) 
B(3,1) 
B(3,1) 
B{3,1V) 
813.19 
At1,D 
A(1.,1) 
Att,i) 












A(2,1) 
A(2,1i) 


59 
60 
öl 
62 
63 
64 
65 
66 
8% 
68 
69 
0 
71 
72 
?3 
24 
73 
76 
7? 
78 
79 
80 
sl 
8L 
83 
84 
5) 
86 
87 
a8 
89 
0 
9 
92 
3 
99 
95 
6 
97 
8 
99 
100 
101 
102 
103 
104 
105 
106 
107 


108. 


109 
110 
111 
112 
113 
114 
115 


ADD 
ADD 
ADD 
ADD 
SUB 
ADD 
ADD 
AuD 
LDA 
SUB 
SUB 
SUB 
SUB 
ADD 
5UB 
LDA 
SUB 
SUB 
SUB 
SUB 
SUB 
SUB 
SUB 
SUB 
SUB 
SUB 
SUB 
SUB 
SUB 
ADD 
ADD 
ADD 
ADD 
SUB 
ADD 
LDA 
ADD 
ADD 
ADD 
SUB 
ADD 
ADD 
SUB 
SUB 
ADD 
SUB 
SUB 
SUB 
SUB 
SUB 
SUB 
SUB 
SUB 
SUB 
LDA 
LDA 
LDA 


X01,202,R09,NOP 
%201,202.R11,CVT2 
X01,202,R13,NOP 
X02,202,.R00,NOP 
X02,202,R08,CV'’Ti 
%X02,202.R12,NOP 
X02,202.R13,NOP 
X03,233,K01,CVTO 
U02,DAR,RO0,NOP 
Y01,0U02,L01,NOP 
YO1,U02,R02,NOP 
Y01.002.R09,NOP 
Y01,002,R06,NOP 
Y01,002.R09,NÜP 
Y01,0U02.R11,NOP 
DAR,YO01,R00.NOP 
X01,U02,R10,NOP 
X01,U02,R11,NOP 
X01,002,R13,NOP 
X02,0U02,R06,NOP 
x02,.U02,R11,NOP 
X02,0U02,R13,NOP 
xX03,002,R02,NOP 
X03,U02,R05,NOP 
xX03,0U02,R06,0UT0 
%X03,U02,R08,0UT0 
x03,U02,R10,NOP 
203,U02,R1i.NOP 
X03,U02,R13,NOP 
X03,203,R02.,NOP 
x03,203,R04,NOP 
203,203,R0S,NOP 
xX03,203,R06,NOP 
X03,203.R09,NOP 
xX03,203,R13,NOP 
w01,KPO,ROO,NOP 
W01,X01,R01,NOP 
W01.%201,R03,NOP 
W01,X01,R04,NOP 
W01,%X01,R07,NOP 
W01,X01,R11,NOP 
wW01,X01,R12,NOP 
W01,%X02,R02,NOP 
wW01,X02,R04,NOP 
W01,X02,R0?,NOP 
W01,%202,R11,NOP 
W01,%X02,R13,NOP 
W01,X03,R00,NOP 
W01,%X03,R03,NOP 
W01,%X03,R04.NOP 
wW01,%X03,R07.NOP 
W01,X03,R08,NOP 
W01,%X03,R11,NOP 
W01,X03,R12,NOP 
Z01,X01,R00.NOP 
202,X02,R00,NOP 
203.X03,R00,NOP 


At1,2) 
at1,2) 
Ati.) 
At2,2) 
A{2,2) 
162,29 
A(L.2) 
een 
ende 

DI 22 

Dt 1.29) 
Dii,2) 
Di 1.52.) 
DEI 12) 
Dt1.2) 
Beginn 
Bil,2) 
B(1.2) 
Bt1L,2) 
B(2,2) 
8(2,2) 
BIZ,Z2) 
B(3,2) 
203,2) 
B(3,2) 
B(3,2) 
B(3,2) 
BrIHZ) 
8(3,2) 
A(3,3) 
A(3,3) 
A(3,3) 
AY3,3) 
A(3,3) 
At3,.3) 


c#1.1) 
(1.1) 
ct1l,b 
ct1,1) 
ct1,9) 


cttl,1), 


Cil,2) 
C(1,2) 
ctl,2) 
Cti1,2) 
ct1,2) 
ct1,3) 
c(1.,3) 
ct1.3) 
ci1,3 
Cti,3) 
ct1,3 
c(1,3) 


Bild 4. Beispiel für ein generiertes Programm 


Eıngaabe VL 


Ausgabe Yi 
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0.1115 = 0.875n 
realisiert werden, so ist dies mit drei Instruktionen in 
der Form (Rx bedeutet Rechtsshift um x Stellen) 

ADD Zieladresse, Quelladresse, RO1 

ADD Zieladresse, Quelladresse RO2 

ADD Zieladresse, Quelladresse RO3 
aber auch mit nur zwei Instruktionen in der Form 

ADD Zieladresse, Quelladresse, ROO 

SUB Zieladresse, Quelladresse RO3 
möglich, ohne den Wert des realisierten Koeffizienten 
zu ändern [4, 6]. Das Generatorprogramm nutzt diese 
Möglichkeit zur Verkürzung des Sourcecodes und damit 
zur Geschwindigkeitserhöhung aus. Dazu werden in der 
Binärdarstellung der Koeffizienten Ketten von drei oder 
mehr 1-Bits gesucht. Diese Ketten werden dann durch 
nur noch zwei Bits mit unterschiedlichen Vorzeichen 
(Instruktionen ADD und SUB) ersetzt. So kann z. B. der 
Koeffizient A(1,1) in Bild 4 durch vier Instruktionen 
realisiert werden gegenüber neun Instruktionen ohne 
die gemischte Verwendung von ADD und SUB. 


3 Das Gesamtprogrammsystem 


Das Programmsystem besteht derzeit aus: 
a) dem beschriebenen Sourcecode-Generator, 
b) einem Objekt- und Source-Transferprogramm vom 
Floppy zum „2920 System Design Kit“ und zurück, 
c) unterstützenden Programmen zur Skalierung und 
zum Vergleich des durch den 2920 realisierten digita- 
len Systems mit dem gewünschten, durch (1) und (2) 
repräsentierten System, 

d) einem Assemblierprogramm. 





Dr.-Ing. Herbert Hanselmann studierte an seinem Geburtsort Karlsruhe Elektro- 
technik mit Schwerpunkt Regelungstechnik und wurde im Anschluß daran 1973 
wissenschaftlicher Assistent beim dortigen Institut für Regelungs- und Steuerungs- 
systeme bei Prof. Dr. ©. Föllinger. Nach der Promotion im Jahre 1978 über ein 
Thema aus der Regler-Entwurfstheorie wechselte er zur Universität - Gesamthoch- 
schule - Paderborn in die Fachgruppe Automatisierungstechnik (Prof. Dr. J. Lückel), 
wo er sich mit Fragen der Auslegung und Anwendung schneller linearer, insbeson- 
dere digitaler Mehrgrößenregelsysteme beschäftigt. 
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Vorausgesetzt wird die Verfügbarkeit eines 64-K- 
Tischrechners (es wurde ein PSI8O der Fa. Kontron 
verwendet) mit FORTRAN-80-Programmiermöglichkeit 
und des „2920 System Design Kits SDK“, der eine sehr 
preiswerte Möglichkeit zum Einstieg in die Anwendung 
des 2920 darstellt. Das erzeugte Programm kann über 
V24-Schnittstelle vom Tischrechner in den SDK 
geschrieben werden. Von dort aus wird das 2920- 
EPROM programmiert. Denkbar wäre auch, über ein 
kleines Treiberprogramm den Objektcode (6 x 4 Bit pro 
Instruktion) direkt in ein geeignetes EPROM-Program- 
miergerät zu schreiben. Der SDK könnte dann entfallen. 

Merkwürdigerweise enthält der SDK zwar einen 
Assembler für Sourcecode, der über den vorhandenen, 
allerdings recht spartanischen SDK-Editor über Tastatur 
eingegeben wurde, Sourcecode über die Schnittstelle 
einzulesen und zu assemblieren ist aber nicht vorgese- 
hen. Es ist deshalb nötig, für die Assemblierung selbst 
am Tischrechner zu sorgen. Damit besteht auch die 
Möglichkeit, den komfortableren Editor des Tischrech- 
ners zu verwenden. Eine nachträgliche Editierung 
ermöglicht Erweiterungen des generierten Programms, 
z.B. die Einfügung nichtlinearer Terme. 

Die unter c) genannten Programme gestatten vor der 
EPROM-Programmierung eine Vorabprüfung, ob die 
Abweichungen durch die im 2920 begrenzte Koeffizien- 
ten-Wortlänge tolerierbar sind und ob Probleme bei der 
Aussteuerbarkeit (Overflow, Underflow) entstehen kön- 
nen. Gegebenenfalls ist eine Umskalierung vorzu- 
nehmen. 

Abschließend sei vermerkt, daß der Regler von Bild 4 
die quasi-analoge Regelung eines elektromechanischen 
Systems mit einer Abtastfrequenz von etwa 10 kHz bei 
5 MHz Taktrate des 2920 erlaubte. Demgegenüber konn- 
ten mit einem Z80A/am9511-System in 32-Bit-Gleitkom- 
marechnung (32-Bit-Festkomma wäre nur etwa um Fak- 
tor 2 schneller gewesen) nur rund 0,2 kHz erreicht 
werden, was für den vorgegebenen Regler nicht einmal 
zur stabilen Regelung ausreichte [7]. 
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Ulrch Gauda 


Einfach und kostengünstig: 
Lösungen mit den TMS320-Peripherie- 
Bausteinen TMS32050/51 


Mit der Einführung des 32-Bit-Signalprozessors 
TMS32010, der seine Leistungsfähigkeit bei der 
Berechnung von Filtern, Signalerzeugung, Sprachana- 
Iyse und Sprachsynthese sowie auf dem Gebiet der 
Regelungstechnik bewiesen hat, wurde es möglich, 
digitale Signalverarbeitung preisgünstig und kompakt 
zu verwirklichen. Der folgende Bericht beschreibt die 
beiden intelligenten Analog-Pheripherie-Bausteine 


Der Typ TMS32050 ist ein programmierbarer analoger 
Eingangskanal („Analog Input Channel“, AIC) zur Da- 
tenerfassung, der Typ TMS32051 ist ein programmierba- 
rer Ausgangskanal („Analog Output Channel“, AOC), 
der ein komplettes Ausgangssystem zur Erzeugung ana- 
loger Signale ersetzt. Besonders geeignet sind der 
TMS32050 und TMS32051 für Anwendungen im 
Bereich Telekommunikation (Modem), der digitalen 
Sprachverarbeitung sowie in der Steuerungs- und Rege- 
lungstechnik. 


Digital-Signal-Verarbeitungssystem 


Bild 1 zeigt die Blockschaltung für ein komplettes 
System zur digitalen Signalverarbeitung mit dem 
TMS32050/51 und dem Signalprozessor TMS32010. Der 
AIC besteht aus einem Antialiasing-Tiefpaß-Filter, 
einem Analog-Digital-Umsetzer (ADC) und einem First- 
In-First-Out-Speicher (FIFO). 

Der TMS32010 steuert den TMS32050 über den 16- 
Bit-Datenbus und programmiert die Abtastrate sowie die 
Eckfrequenz des Tiefpaß-Filters. Ein Ausgangswert des 
ADC wird im FIFO-Speicher abgelegt und kann dort 
vom TMS32010 über den 16-Bit-Datenbus gelesen 
werden. 

Der AOG besteht aus einem FIFO-Speicher, dem Digi- 
tal-Analog-Umsetzer (DAC) und einem sin(x)/x-Korrek- 


TMS32050 und TMS32051, die die Schnittstelle zwi- 
schen Analogsignalen und digitaler Signalverarbei- 
tung darstellen. Die ICs ersetzen A/D- und D/A-Umset- 
zer, die zugehörigen Filter und die Steuerungslogik. 
Zusätzlich sind beide Analog-Pheripherie-Bausteine 
mit einem FIFO-Speicher (8 x 16 Bit) ausgerüstet, die 
es dem Anwender erlauben, längere Zwischenrech- 
nungen ohne Unterbrechung durchzuführen. 


turfilter sowie einem Tiefpaß-Filter. Der TMS32010 lädt 
den FIFO-Speicher und programmiert wie beim AIG die 
Abtastrate sowie den Tiefpaß-Filter über den 16-Bit- 
Datenbus. 

Beide Schaltkreise benötigen Versorgungsspannun- 
gen von +5 V und sind TTL-kompatibel. Separate 
Anschlüsse für Analog- und Digitalspannungsversor- 
gung zur Entkopplung sind vorhanden. Der interne zeit- 
liche Ablauf des TMS32050 und TMS32051 muß syn- 
chron mit dem Prozessor TMS32010 arbeiten. Zur Syn- 
chronisierung dient das (5-MHz-) ‚CLOCK-OUT“-Signal 
des TMS32010. 





Wichtigste Merkmale 
des AlC TM32050 


® Zwei Analogeingänge 

@ Antialiasing-Filter, programmierbar, 
Eckfrequenz 3,3 KHz bis 8,1 kHz 

@ 16-Bit-A/D-Umsetzer-Zweierkomplement 

@ Abtastfrequenz max. 16 kHz, programmierbar 

@ Fehler + 0,5 LSB 

@ FIFO-Speicher, 8 Worte a 16 Bit 

@ Serielles Ausgaberegister 

@ Versorgungsspannung + 5 V 

@ 40poliges Gehäuse 
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Bild 1. Blockschaltung eines typischen Signalverarbeitungssystems mit den Bausteinen der TMS320-Familie 


Instruments. 











Architektur des AIC 


Die Blockschaltung des AIG TMS32050 ist in Bild 2 
dargestellt. Beide Analog-Eingänge werden über einen 
Multiplexer entweder über den Antialiasing-Filter oder 
direkt mit dem Analog-Digital-Umsetzer (ADC) verbun- 
den. Der interne Controller des AIC ermöglicht dem 
TMS32010, über die Steuerleitungen und den 16-Bit- 
Datenbus die Eckfrequenz des Antialiasing-Filters von 
3,3 kHz bis 8,1 kHz und die Abtastfrequenz des ADC von 
maximal 16 kHz zu programmieren. 

Der Antialiasing-Filter besteht aus drei hintereinan- 
dergeschalteten Tiefpaß-Filtern. Das Teiler-Register teilt 
die Takt-Frequenz (5 MHz) auf die programmierte Eck- 
frequenz des Filters. 

Beim ADC handelt es sich um einen 16-Bit-Umset- 
zer, dieser liefert einen Digitalwert im Zweier-Komple- 
ment mit einem Fehler von 0,1 % und arbeitet entwe- 
der im Dauerbetrieb (programmierbar durch den 
TMS32010) oder im Triggermode. Im Freilaufbetrieb 
wird die Abtastrate durch den 10-Bit-Frequenzteiler 
bestimmt. Die erlaubt 1023 mögliche ADC-Perioden, 
wobei die maximale Abtastfrequenz bei 16 kHz liegt. 
Während einer Umsetzung kann der TMS32010 den Fre- 
quenzteiler um einen Wert erhöhen oder erniedrigen, 
um eine Phasenkorrektur durchzuführen. Im „Trigger- 
Mode“ wird der ADC durch ein externes Triggersignal 
gesteuert. Das 16-Bit-Ergebnis des Analog-Digital- 
Umsetzers wird im 8 X 16-Bit-FIFO-Speicher abgelegt. 


Zwei maskierbare Statusbits FE (FIFO Empty), FF (FIFO 
Full) zeigen den Zustand des Zwischenspeichers an. 
Diese Information kann über die beiden Statusleitungen 
abgefragt oder auch als direktes Interrupt-Signal für den 
TMS32010 verwendet werden. 


Architektur des ADC 


Die Architektur des AOC ist dem AIG ähnlich (Bild 3). 
Dieser Baustein besteht aus einem FIFO-Speicher, 
einem Digital-Analog-Umsetzer (DAC), einem sin(x)/x- 
Korrekturfilter und einem Tiefpaß-Glättungsfilter. Wie 
beim AIC kann der TMS32010 die Abtastfrequenz und 
den Tiefpaßfilter des AOC programmieren und einen 
der beiden Analogausgänge selektieren. Der FIFO-Spei- 
cher und die Statusleitungen des TMS32051 sind mit 
denen des TMS32050 identisch. Analoge Ausgangssi- 
gnale werden erzeugt, wenn der TMS32010 Daten über 
den 16-Bit-Bus in den 8 x 16-Bit-FIFO-Speicher 
schreibt. 

Der DAC ist ein vorzeichenabhängiger Umsetzer mit 
einer Linearität von 16 Bit. Digital-Analog-Umsetzungen 
werden entweder im Dauerbetrieb oder im Trigger-Mode 
durchgeführt, wobei die Abtastrate wie beim ADC pro- 
grammierbar ist. Im Dauerbetrieb wird der AOC durch 
das externe CVT/REF-Signal gesteuert. Zusätzlich dient 
das Referenz-Signal zur Phasenkorrektur. Falls dieses 
Signal auf High wechselt, bevor die Analog-Digital- 
Umsetzung begonnen hat, wird die Abtastfrequenz für 
einen Zyklus um einen Wert erniedrigt. Im anderen Fall, 
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Bild 2. Analog-Eingangs-Kanal TMS32050 (AIC) 
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Bild 3. Analog-Ausgangs-Kanal TMS32051 (AOC) 
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wenn das Referenz-Signal nach einem DAC-Zykus auf 
High geht, wird die Abtastfrequenz für eine Wandlungs- 
rate um eins erhöht. Zusätzlich ist es möglich, den 
TMS32051 im Dauerbetieb anzuhalten. 

Durch Schreiben eines Befehls in das Steuerregister 
wird der AOC in den Sperrmode versetzt, d. h. es wird 
keine D/A-Umsetzung bis zur ersten abfallenden Flanke 
des Referenz-Signals mehr ausgeführt. Danach setzt der 
DAC wieder kontinuierlich um. Im Trigger-Mode wird 
eine D/A-Umsetzung entweder vom TMS32010 oder 
durch ein externes Signal gestartet, das den gleichen 
Eingang verwendet wie das Referenz-Signal im Dauerbe- 
trieb. Das Glättungsfilter ist identisch mit dem Antialia- 
sing-Filter; es läßt sich beliebig in den Ausgangskanal 
schalten. 


Serielle Schnittstelle 


Die serielle Schnittstelle des TMS32050 ist als Aus- 
gang und beim TMS32051 als Eingang ausgelegt. Diese 
zusätzliche Schnittstelle vereinfacht die Schaltungsaus- 
legung zwischen einem Prozessor (z. B. Host-Prozessor) 
und den beiden Analog-Peripherie-Bausteinen. 

Die serielle Schnittstelle erlaubt es, ein 8-Bit- oder 16- 
Bit-Datenwort zu senden bzw. zu empfangen. Die Wort- 
länge ist programmierbar. Beim 8-Bit-Datenwort werden 
die acht niederwertigen Datenbits angesprochen. Grund- 
sätzlich wird als erstes das höchstwertige Bit (8. oder 16. 
Bit) ausgegeben. Zum Beispiel ist beim AIC bei einem 8- 
Bit-Wort das erste serielle Bit D7 und DO das letzte Bit. 
Den Datentransfer steuern die drei Signalleitungen RX, 
FSX und CLKX. 


Komplettes Prozessor-System 


Die Analog-Interface-Bausteine TMS32050 und 
TMS32051 sind kompatibel mit der Busstruktur des 
Signalprozessors TMS32010. Bild 4 zeigt das Interface 
zwischen dem TMS32050 und TMS32051. Die Leitun- 
gen DEN und WE steuern den Datentransfer von und 
zum Signalprozessor. Diese beiden Signale werden 
durch die Befehle IN und OUT des TMS32010 erzeugt. 
Die drei Portadreßleitungen PAO bis PS2 selektieren den 
Datentransfer zwischen dem FIFO, der Seriellenschnitt- 
stelle und dem Steuerregister. 

Bild 5 zeigt eine typische Anwendungsschaltung mit 
dem TMS32010, TMS32050 und TMS32051. Die Kom- 
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Bild 4. Schnittstelle zum TMS32010 mit TMS32050 und 
TMS32051 
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Bild 5. Schaltung eines Prozessorsystems mit AIC, AOC und 








dem Signalprozessor TMS32010 





munikation zu einem Host-Prozessor geschieht über den 
seriellen Eingang und den seriellen Ausgang des AIC 
und AOC. 


Realisierung vereinfacht 


Die Möglichkeiten und Vorteile digitaler Signalverar- 
beitung sind hinreichend bekannt. Der TMS32050 und 
TMS32051 als erste intelligente Analog-Peripherie- 
Schaltkreise entsprechen den Anforderungen analog 
arbeitender Bausteine in vielen digital arbeitenden 
Systemen. Ein digitaler Aufbau ist mit dem AIC und 
AOGC gegenüber einer äquivalenten Lösung des gleichen 
Problems möglich, ohne daß ein großer Aufwand an 
Abgleich von Bauelementen notwendig ist. Dies verein- 
facht das Design, verkürzt die Entwicklungszeit und 
spart Kosten bei der Realisierung neuer Systeme. 





Wichtigste Merkmale des AOC TMS32051 


@ FIFO-Speicher, 8 Worte & 16 Bit 

@ Serielles Eingaberegister 16-Bit-D/A-Umsetzer, 
Zweierkomplement 

@ Genauigkeit + 0,5 LSB 

@ sin(x)/x-Ausganggsfilter, programmierbar 

@ Glättungsfilter, programmierbar 

® Zwei Analogausgänge 

@ Versorgungsspannung + 5 V 

@ 40poliges Gehäuse 











Wichtigste Merkmale des Signalprozessors TMS32010 


@ Hardware: 
Instruktions-Zyklus 200 ns 
Wortlänge für Daten 
und Befehle 16 Bit 
Programm-ROM 3 KByte | 
Externer Programmspeicher 8 KByte @ Ein-/Ausgabe: 
Datenspeicher 288 Byte 


@® Rechenwerk: 
Zweierkomplement-Arithmetik 


16 x 16-Bit-Multiplizierer 
(200 ns) 
32-Bit-Rechenwerk 
32-Bit-Akkumulator 


16-Bit-Datenbus. Transfer 
bis 40 MBit/s 
Interrupt-Leitung 
Testbare Statusleitung 
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Wenn Sie neben dem technischen Detailwissen des 
Fachmannes auch einen generellen Überblick über alle 
Bereiche der elektronischen Kommunikation wünschen: 


Die FUNKSCHAU berichtet über Die FUNKSCHAU berichtet über Der Praktiker wird über Meßtechnik 
alle Bereiche dieses Fachgebietes. Audio- und Videotechniken, über neue und Grundschaltungen der Elektronik 
Sie finden alles, was Sie für Medien, über Bildschirmtext und informiert. Anspruchsvolle Bau- 

Ihre tägliche Arbeit oder Ihr Hobby Bildtelefon... anleitungen und Service-Tips tech- 
an theoretischem oder praktischen Die FUNKSCHAU beschreibt Geräte nischer und allgemeiner Art ergänzen 
Wissen brauchen. Sie finden und Systeme, bringt praxisorientierte das Informationsangebot. 

Berichte aus der Forschung und Tests, bespricht das internationale 

Grundlagenbeiträge. Bauelemente-Angebot und macht Sie 


mit der Mikrocomputertechnik vertraut. 


FUNKSENAU Zeitschrift für elektronische Kommunikation 





Ah 
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Dipl.-Ing. Hans-Günter Göring 


Digitale Filter in der Praxis testen 


Digitale Filter finden immer breiteren Einsatz, denn 
ihre Vorzüge sind bestechend. Eine Hemmschwelle 
bilden aber immer noch die Forderung nach völligem 
Umdenken beim Entwurf sowie der Mangel an 


1 Die Vorteile digitaler Filter 


Die digitalen Filter — grundsätzlich immer aufgebaut 
wie in Bild 1 - sind den herkömmlichen analogen in 
folgenden Punkten überlegen: 

-keine Temperaturabhängigkeit 

-keine Alterung 

-keine Exemplarstreuungen 

Parameter per Software änderbar 

-exakte Übereinstimmung der Theorie mit der Praxis 
bei Betragsfrequenzgang, Phasengang, Quantisierungs- 
geräusch usw. 

Speziell FIR-Filter (Finite Impulse Response, endliche 

Impulsantwort) zeichnen sich aus durch 

-einfache Entwurfsalgorithmen zur Berechnung der Fil- 
terkoeffizienten 

-uneingeschränkte Stabilität. 





Digital /Analog-: 
Umsetzung 


Digitale 
Verarbeitung 


Analog /Digital- 
Umsetzung 


ult) 


ult) 


Bild 1. Digitales Filter: a) grundsätzlicher Aufbau, b) Wir- 
kungsweise 











anschaulichen Einführungsmodellen. Das hier vorge- 
stellte Entwurfssystem nimmt nun dem Anwender 
einen großen Teil der Arbeit ab und erleichtert so den 
Einstieg in diese neue, vielversprechende Technik. 


2 Das „Filter Design Kit“ 


Trotz ihrer Vorteile wird die Digitaltechnik noch nicht 
in dem Maße eingesetzt, wie es technisch sinnvoll wäre. 
Der analog denkende Praktiker sieht sich oft zu großen 
Problemen gegenüber: 

-Technik und Denkweise sind neu zu erlernen 

-Einarbeitung in die Theorie der digitalen Signalverar- 
beitung erscheint problematisch 

—-Anschauliche Einführungsmodelle sind notwendig. 

Die Theorie reicht allein nicht aus. Praktische Erfah- 
rungen sind notwendig, um die neue Technik zu erler- 
nen. Das im folgenden vorgestellte „Filter Design Kit“ 
(FDK) von der Firma MEDAV (Bild 2) verkürzt die 
Einarbeitungszeit entscheidend. Ohne Vorkenntnisse 
können wesentliche Effekte, Möglichkeiten und Gren- 
zen der digitalen Filtertechnik studiert werden. 





Bild 2. „Filter Design Kit“, praktische Ausführung (Foto: Medav) 
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Oszilloskop 


Analog- 
Ausgang 


V.24 -Verbindung 


Funktions - 
generator 


Analog- 
Eingang 

















Terminal 


Bild 3. Testumgebung des FDK 


nr — {1 {4 
| FIRFIL | 





Steuerbefehle 
Filterkoeffizienten 





Abtastfrequenz 


Takt- 
generator 


Bild 4. Blockschaltung des „Filter Design Kit“. Der umrahmte 
Teil, hier FIR-Filter, kann ausgewechselt werden 





zur 
Bedienkonsole 


Z 80-Mikroprozessor- 
steuerung 














n 
YAM 2, ALLE BER Bild 5. Grundsätzlicher Aufbau 


eines FIR-Filters n-ten Grades 














Bild 3 zeigt eine typische analoge Testumgebung für 
das FDK. Die Reaktion eines digitalen Filters auf ein 
definiertes Testsignal wird mit dem Oszilloskop unter- 
sucht. In Bild 4 sind beide Baugruppen des FDK darge- 
stellt: 

—FDK-Systemboard und 
-Digitales Filter FIRFIL (umrahmter Teil). 


Abtastfrequenz 19 200 KHz Filter 1 


Befehlsmenü FDK 


0 = Demonstrationsprogramm 
1 = Abtastfrequenz festlegen 
2 = Filterblock einstellen 


3 = Mittelungsfilter programmieren 

4 = Selektives Filter programmieren 

5 = eigene Koeffizienten programmieren 

6 = Koeffizientensatz auf Konsole ausgeben 
7 = Koeffizientensatz ändern 

8 = fortlaufende Umschaltung der Filter 

9 = Filterabschätzung 


Eingabe: 





Bild 6. Befehlsmenü des FDK nach dem Einschalten 
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Ein Analog/Digital-Umsetzer setzt das analoge Ein- 
gangssignal u(t) in eine Zahlenfolge u(k) konstanter 
Periode (Abtastfrequenz) um. Ist die Abtastfrequenz grö- 
Ber als die doppelte Bandbreite des Analogsignals, stellt 
u(k) das digitale Abbild des Analogsignals dar. Eine 
Recheneinheit (Digitale Verarbeitung) berechnet aus der 
kontinuierlichen Zahlenfolge u(k) nach einem festen 
Algorithmus die Ausgangszahlenfolge y(k). Ein nachfol- 
gender Digital/Analog-Umsetzer bildet hieraus das ent- 
sprechende Analogsignal y(t). Das Systemverhalten 
(Tiefpaß usw.) hängt nur von der Wahl eines geeigneten 
Algorithmus ab. 


Hier verdeutlicht sich die Flexibilität digitaler Signal- 
verarbeitungssysteme. Die Veränderung eines Koeffi- 
zientensatzes im RAM bewirkt die Realisierung ver- 
schiedener Übertragungskennlinien, wie z.B. Hochpaß, 
Tiefpaß, Bandpaß, Entzerrer, Integratoren, Differenzierer 
usw. auf einer Hardware. Den Koeffizientensatz und die 
Abtastfrequenz legt die einfache Z80-Mikroprozessor- 
steuerung fest. Die Bedienung und Eingabe aller Befehle 
erfolgt im FDK menügesteuert über ein Terminal. 


3 Funktionsprinzip des FIR-Filters 


Bild 5 zeigt den grundsätzlichen Aufbau eines FIR- 
Filters. Ein Ausgangswert y(k) berechnet sich als eine 
Summe verzögerter Eingangswerte u(k), die jeweils mit 
einem Filterkoeffizienten h(n) gewichtet sind. Die Ver- 
zögerung T entspricht genau der Verzögerung um einen 
Abtasttakt. 


Einfache Beispiele: 

-Identische Übertragungsfunktion 
Setzt man alle Koeffizienten h(n) zu Null, nur h(0) auf 
1, so stimmt das Ausgangssignal y(k) mit dem Ein- 
gangssignal u(k) überein. 


— Verzögerer 
Sind alle Koeffizienten gleich Null und nur h(n) gleich 
1, so erhält man ein Totzeitglied mit einer Verzögerung 
um n Abtastintervalle. Es gilt dann: 
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Eingabe: 4 


Programmiert wird ein „ideales selektives Filter 
Eingabe der Filterlänge (Integer): 100 


Wahl der Fensterfunktion: 


1 = Rechteck-Fenster 
2 = Dreieck-Fenster 
3 = Hamming-Fenster 
4 = allgemeines Hamming-Fenster 
5 = Hamming-Fenster 
6 = Kaiser-Fenster 
Eingabe: 1 


Wahl des Filtertyps 


1 = Tiefpaß 
2 = Hochpaß 


Bild 7. Wahl der Fensterfunktion 


y(t) = ult-n-T) 
mit n = Index des Koeffizienten (> 0) 
T = Periode des Abtasttaktes 


4 Arbeiten mit dem „Filter Design Kit“ 


Um auch Benutzern, denen digitale Signalverarbei- 
tung bisher ein Fremdwort war, eine spielerisch leichte 
Einarbeitung zu ermöglichen, wurde beim FDK sehr viel 
Wert auf Bedienungskomfort gelegt. Erreicht wurde dies 
durch ein umfangreiches Softwarepaket (ca. 25 KByte). 
Nach dem Einschalten meldet sich das FDK auf dem 
Bildschirm des angeschlossenen Rechners mit einem 
Befehlsmenü (Bild 6). Der Anwender wählt die ge- 
wünschte Funktion aus. Hieraus einige Beispiele: 





0,2 0,3 f/fı 0,2 0,3 f/fa 
Bild 9. Frequenzgang eines di- Bild 10. Frequenzgang eines 
gitalen Bandpasses mit Bandpasses mit Hammingfen- 
Rechteckfenster ster 








Dipl.-Ing. Hans Günter Göring, geboren in 
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Wahl des Filtertyps 


1 = Tiefpaß 

2 = Hochpaß 

3 = Bandpaß 

4 = Bandsperre 
Eingabe: 3 


Eingabe untere Grenzfrequenz (Real): 0.2 


Eingabe obere Grenzfrequenz (Real): 0.3 


##### Koeffizienten geladen ##### 


Weiter mit „RETURN“ 





Bild 8. Wahl des Filtertyps und Eingabe der Grenzfrequenzen 


4.1 Filterentwurf 


Die Eingabe von „4“ ruft ein Filterentwurfsprogramm 
für selektive Filter auf. Als nächstes erfolgt die Festle- 
gung des Filtergrades (hier: „100“, Bild 7). Die Filterko- 
effizienten können mit verschiedenen Fensterfunktio- 
nen gewichtet werden. Sie beeinflussen die Feinheiten 
des Frequenzgangs (Welligkeit, Steilheit). Mit „3“ wählt 
man den Filtertyp „Bandpaß“ aus (Bild 8). Zum 
Abschluß gibt man noch die Grenzfrequenzen des 
Durchlaßbereiches ein, angegeben als Bruchteil der Ab- 
tastfrequenz. 

Den Frequenzverlauf für diesen Bandpaß mit ver- 
schiedenen Fensterfunktionen zeigen die Bilder 9 
und 10. 


6 = Koeffizientensatz auf Konsole ausgeben 
7 = Koeffizientensatz ändern 

8 = fortlaufende Umschaltung der Filter 

9 = Filterabschätzung 


Eingabe: 9 


Berechnung des Filtergrades FIR-TP-Filter 


(Real) 
(Real): 
(Real): 
(Real): 
(Real): 


Eingabe Abtastfrequenz in kHz 


Eingabe Durchlaßgrenzfrequenz in KHz 
Eingabe Sperrgrenzfrequenz in kHz 
Eingabe max. Dämpfung Durchl. in dB 
Eingabe min. Dämpfung Sperrb. in dB 


Resultierende Steilheit in dB pro Oktave : 518:7158 


(entsprechendes Analogfilter) 
Minimaler Filtergrad (FOURIER, KAISER-Fenster) : 181 
Minimaler Filtergrad (TSCHEBYSCHEFF) : 135 


Weiter mit „RETURN“ 


Bild 11. Filterabschätzung mit dem FDK 
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.03183 Ic 

.02499 I* 
0.00000 * 
—.03214 en] 
-.05304  3etakakaakkl 
—.04501  3eakakackl 


0.00000 * 
.07501 
.15915 
22507 
24998 


Teak 
Takeakeakakakakakaakakatakakakakakakäksiakakakk 
Iaakaakaaakalakaalaalalalka 
Take ak ak ak ak ak akakakakakakaalakakalalakakakalakakalalalakallakkk 
ak aka 
.15915 Tkakakakakaakakakalakakakaakakakakalkkk 
.07501 Bear 
0.00000 * 
—.04501  rkaakakkkl 
—.05304 akakakackl 
-.03214 De] 
0.00000 * 
.02499 Ir 
.03183 Inka 


Weiter mit „RETURN“ 


22507 


Bild 12. Tiefpaß-Impulsantwort 


4.2 Filtergradabschätzung 


Das Ergebnis einer Filtergradabschätzung (Programm 
„9“) stellt Bild 11 dar. Die Leistungsfähigkeit des Digital- 
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systems erläutert das gewählte Frequenzgangbeispiel 
mit einer Steilheit im Übergangsbereich von ca. 500 dB/ 
Oktave bei linearem Phasengang. 


4.3 Darstellung von Impulsantworten 


Umfangreiche Tabellenwerke zur Beschreibung selek- 
tiver Filter (TP, HP, BP, BS) erübrigen sich durch imple- 
mentierte Entwurfsalgorithmen. Neben dem unmittelba- 
ren Programmieren des Filterbausteines „FIRFIL“ ist die 
Ausgabe berechneter Koeffizientensätze möglich. Bild 
12 zeigt die Impulsantwort eines Tiefpaß-Filters mit 21 
Koeffizienten. 
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Dr. rer. nat. Thomas Fischer 


Digitale Signalverarbeitung 
in der Konsumelektronik 


Digitale Signalverarbeitung in Echtzeit ist ein ganz 
großes Schlagwort geworden. Was verbirgt sich 
dahinter? Was ist daran so neu? Was unterscheidet 
die digitale Signalverarbeitung von der herkömmili- 


1 Einführung 


Die Vorteile der Digitaltechnik brauchen hier nicht 
erneut diskutiert zu werden. Es ist hinreichend bekannt, 
was die Digitaltechnik für Langzeitstabilität, Integrier- 
barkeit, Toleranz gegenüber Parameterstreuungen, Spei- 
cherbarkeit der Signale und Rauschverhalten bedeutet. 
Diese Vorteile werden gerade jetzt in einer ungemein 
dynamischen Entwicklung für die Konsumelektronik 
erschlossen. Drei Einsatzgebiete seien zur Verdeutli- 
chung erwähnt: synthetische Spracherzeugung, digital 
arbeitende Fernsehgeräte und digitale Schallplatten. 

Was unterscheidet die herkömmliche analoge und die 
digitale Signalverarbeitung? Der entscheidende system- 
theoretische Unterschied ist der zwischen einem abgeta- 
steten und einem kontinuierlichen System (Tabelle 1). 
Die Abtastrate begrenzt die Verarbeitungsbandbreite des 
Systems. In einem abgetasteten System können nur 
Signale verarbeitet werden, deren höchste Frequenz- 
komponente die halbe Abtastfrequenz nicht überschrei- 
tet (Nyquist-Theorem). Höhere Frequenzanteile erschei- 
nen als falsche Frequenzen (unter einem „Alias“) im 
Basisband. Diese Störungen werden Aliasing genannt. 

In digitalen Systemen lassen sich immer wiederkeh- 
rende Funktionseinheiten identifizieren (Bild 1). Dies 
sind Anti-Aliasing-Filter, Analog-Digital-Umsetzer, Pro- 
zessor, Digital-Analog-Umsetzer und Rekonstruktions- 
filter. Letzteres interpoliert die Werte zwischen den 
Taktzeiten, denn nur zu den Taktzeiten steht der rich- 
tige Wert am D/A-Umsetzer an. Gleichzeitig werden die 
hochfrequenten Störanteile ausgefiltert, die durch die 
scharfen Sprünge des Umsetzers entstehen. Die Anord- 
nung des Systems ist nicht immer genauso. Es gibt Fälle, 
in denen mit sehr hoher Rate abgetastet wird, der 
Signalprozessor aber mit sehr viel kleinerer Systemfre- 
quenz arbeitet. In einem solchen Fall kann das Anti- 
Aliasing-Filter zwischen Umsetzer und Prozessor ange- 
ordnet und als digitales Filter ausgebildet sein. Umge- 
kehrt ist das Rekonstruktionsfilter oft in nachgeordneten 


chen EDV bzw. der Mikroprozessortechnik? Auf alle 
diese Fragen gibt der folgende Beitrag eine Antwort. 
Er zeigt darüber hinaus auf, wie diese Technik für die 
Konsumelektronik nutzbar gemacht werden kann. 


Systemkomponenten untergebracht, z. B. wird die Tief- 
paßwirkung von Lautsprechern oder die begrenzte 
Bandbreite der Leistungsverstärker ausgenutzt. 

Die digitale Verarbeitung von Signalen begann mit der 
Einführung moderner digitaler Rechenmaschinen. Das 
war zunächst nicht in Echtzeit möglich. Eine der ersten 
Anwendungen war die Analyse von (aufgezeichneten) 
seismischen Signalen. Eine spätere berühmte Anwen- 
dung war die Filterung und Bearbeitung der Bilder, die 
von Satelliten und Raumsonden auf die Erde zurückge- 
sendet wurden. Diese Art der digitalen Signalverarbei- 
tung geschah und geschieht auf digitalen Datenverarbei- 
tungsanlagen. Mit der Einführung schneller LSI-Bau- 
steine war es möglich, digitale Signale in Echtzeit zu 
verarbeiten. Zuerst waren das festverdrahtete (Hard- 
ware-)Lösungen. Heute ist man an der Schwelle der 
Masseneinführung programmierbarer Signalprozessoren 
angelangt. Sie entwickelten sich aus der Mikroprozes- 
sortechnik, und sie werden eine ähnliche Revolution in 
der Signalverarbeitung bewirken wie die Mikroprozes- 
soren in der Datenverarbeitung. 








Analog-Digital- 
Umsetzer 


Antialiasing- 
Filter 








Rekonstruktions- 
filter | 


Digital-Analog- 
Umsetzer 


Bild 1. Typisches System für die digitale Signalverarbeitung 
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2 Signalprozessor gegenüber Mikroprozessor 


Was unterscheidet einen Signalprozessor von einem 
Mikroprozessor? Warum ist die digitale Signalverarbei- 
tung eine neue Disziplin, und warum führt man digitale 
Signalprozessoren unter eigenem Namen als neue 
Klasse von Maschinen? Informationsverarbeitende 
Maschinen (EDV-Anlagen, Mikrocomputer) und 
signalverarbeitende Maschinen bedienen sich ähnlicher 
Techniken; beide beruhen auf digitalen Schaltungen. In 
Tabelle 2 ist der Versuch unternommen, die wichtigsten 
Charakteristiken für beide Klassen zusammenzustellen. 
Der wichtigste Unterschied ist, daß informationsverar- 
beitende Systeme Informationen, also Daten, Texte, Zah- 
len bearbeiten, während signalverarbeitende Systeme 
den Träger. von Informationen, nämlich (elektrische) 
Signale bearbeiten, eventuell die Information aus dem 
Signal gewinnen und an ein informationsverarbeitendes 
System weiterreichen. 

Die Entscheidung über den Einsatz digitaler 
Signalverarbeitung wird durch verschiedene Überlegun- 
gen beeinflußt. Der größeren Komplexität digitaler 
Schaltungen steht die größere Dichte von Elementen auf 
dem IC und die Einsparung teurer und anfälliger analo- 
ger Komponenten gegenüber. Die leichte Speicherbar- 
keit digitaler Daten macht manche Anwendungen über- 
haupt erst möglich. Erzielbarer Preis/Stückzahl/Band- 
breite/Auflösung beeinflussen die Entscheidungen ja/ 
nein, festverdrahtet/programmierbar oder Standardbau- 
steine/spezielle VLSI-Schaltungen. 

Dies soll an einem Beispiel erläutert werden. Bei ITT 
Intermetall wurde ein Schaltungskonzept entwickelt, 
das die gesamte Basisband-Signalverarbeitung eines 
Fernsehempfängers mit digitalen Schaltungen realisiert. 
Der IC-Satz besteht aus fünf VLSI-HMOS-Schaltungen, 
nämlich Video-Prozessor, Audio-Wandler, Audio-Pro- 
zessor, Ablenk-Prozessor und Steuereinheit [1]. 

Hinzu kommen weitere ICs in bipolarer Technik, die 
Aufgaben übernehmen, für die die HMOS-Technik 
weniger geeignet ist. Dies sind Video-Umsetzer, Taktge- 
nerator, Infrarot-Vorverstärker und das Tuner-Interface. 


Tabelle 1. Gegenüberstellung 
charakteristischer Eigenschaften analoger und digitaler 
signalverarbeitender Systeme 


Analoge Digitale 
Signalverarbeitung Signalverarbeitung 
Verarbeitungszeit Echtzeit nicht in Echtzeit 
oder Echtzeit 
Zeitverlauf kontinuierlich diskret (abgetastete 
Systeme) 
System- Hardware-orientiertt Programm-orientiert 
philosophie 
Mathematische Laplace-Trans- z-Transformation, 
Hilfsmittel formation, Diffe- Differenzen- 
rentialgleichungen gleichung 
Abhängigkeit von groß gering 


Bauelemente- 
parametern 
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3 Beispiel: Digital arbeitendes Fernsehgerät 


Die Basisbandverarbeitung beginnt bei Video- und 
Audiodemodulator. Das Videosignal wird im Video- 
Umsetzer in eine Folge von Digitalzahlen mit einer 
Auflösung von sieben Bit umgesetzt. Die Referenzspan- 
nung des Analog-Digital-Umsetzers wird von Zeile zu 
Zeile um den halben Wert des kleinstwertigen Bits ver- 
ändert. Bei der Betrachtung ergibt sich der Eindruck 
eines mit acht Bit umgesetzten und verarbeiteten 
Signals. Der Umsetzer selbst ist als „Flash Converter“ 
mit 127 parallelen Komparatoren ausgebildet. Das Aus- 
gabewort ist Gray-codiert, um Störimpulse infolge unter- 
schiedlicher Geschwindigkeiten der Komparatoren oder 
des Codierers selbst auszuschalten. 

Die Bandbreite des Videosignals ist ca. 5 MHz. Dies 
erfordert einen Abtast- und Verarbeitungstakt von min- 
destens 10 MHz. Wegen der Art, wie in PAL- und NTSC- 
Signalen die Farbe codiert ist, ist es für die Empfangs- 
schaltung vorteilhaft, die vierfache Farbhilfsträgerfre- 
quenz zu benutzen und den Abtasttakt phasenstarr mit 
dem Farbhilfsträger zu verkoppeln. Die Abtastung des 
Videosignals bei 45°, 135°, 225° und 315° Phasenlage 
führt zu einer inhärenten Trennung von (R-Y), (B-Y), 

(R-Y) und -(B-Y). Die Abtastrate ist daher 17,7 MHz in 
einem PAL-Empfänger und 14,3 MHz in einem NTSC- 
Empfänger. Gleichzeitig wird der Abtasttakt als System- 
takt für alle Signalprozessoren verwendet. 

Das digitalisierte Videosignal wird dem Video- und 
dem Ablenk-Prozessor zugeführt. Die innere Struktur 
dieser Prozessoren spiegelt den zugrundeliegende 
Datenfluß sehr genau wider. Die Ankunft eines neuen 
Datenworts mit jedem Takt, d.h. alle 56 ns, erfordert 
eine extrem sequentiell ausgelegte Architektur (Pipe- 
line-Architektur) des Prozessors. Die einzelnen Verar- 
beitungsblöcke lassen sich auf dem IC deutlich unter- 
scheiden (Bild 2). Aber nicht nur die Makrostruktur, 
auch die Mikrostruktur ist als Pipeline ausgelegt. Die 
Multiplizierer, die für die digitalen Filter benötigt wer- 
den, sind als Folge von Schiebe- und Addierwerken 
ausgelegt. Die Kunst beim Entwurf dieser Filter besteht 





Tabelle 2. Typische Eigenschaften informations- 

verarbeitender und signalverarbeitender Systeme; 

in der Praxis sind die Übergänge oft fließend 
Informations- Signalprozessoren 

verarbeitende 

Systeme (EDV) 


Gegenstand Daten, Texte Signale, die Informa- 
der Bearbeitung tion transportieren 
Typische mov, +, —, verglei- +, —,x, mov 
Instruktionen che, and, or, call, be- 

dingte Sprünge 
Art der Programme kontrollintensiv rechenintensiv 
Programmablauf variabel linear, repetitiv 
Darstellung der ASCII, EBCDIC, Fest- Festkomma 
Symbole komma, Gleit- 


komma, BCD 














Bild 2. Chip-Foto des Video-Prozessors MAA 2200 Bild 3. » 
Chip-Foto des programmierbaren 
Echtzeit-Signalprozessors MAA 2400 


darin, Filterstrukturen und Koeffizienten zu finden, bei 
denen die Anzahl der Bits mit Wert 1 minimal ist. Nur 
Bits mit Wert 1 erfordern eine physikalisch existierende 
Schiebe- und Addierstufe. 

Die Phasenregelschaltung, die den Referenzträgeros- 
zillator auf richtige Frequenz und Phase regelt, ist eine 
nahezu reine Digitalschaltung. Während der Übertra- 
gung der Phasenreferenz des Senders (Burst) werden die 
(R-Y)- und (B-Y)-Komponenten miteinander vergli- 
chen. Ihre numerische Differenz ist ein direktes Maß für 
die relative Phase von Abtasttakt und Burst. Sie wird 
benutzt, um den Referenzträgeroszillator nachzuregeln. 
Der Referenzträgeroszillator wird zugleich als Generator 
des Systemtaktes eingesetzt. Als spannungsgesteuerter 
Oszillator ist er das letzte analoge Glied in einer sonst 
rein digitalen Phasenregelschaltung. 

Die Verzögerungsleitung, die für die PAL-Kompensa- 
tion benutzt wird, wird bei der Verarbeitung von Farbsi- 
gnalen nach NTSC-Norm zur Realisierung eines Kamm- 
filters eingesetzt. 


Der zweite Signalprozessor, der das digitalisierte 
Videosignal zugeführt bekommt, ist der Ablenk-Prozes- 
sor. Digitale Filter trennen Zeilen- und Bildsynchronim- 
pulse ab. Da der Ablenk-Prozessor die Lage der 
Schwarzschulter erkennt, gibt er ein Steuersignal an die 
Klemmschaltung des Video-A/D-Umsetzers. So wird 
erreicht, daß immer der volle Bereich des A/D-Umset- 
zers ausgenutzt wird. Die hervorstechendste Eigenschaft 
des Ablenk-Prozessors ist die Benutzung von Abzählal- 
gorithmen zur Erzeugung der Horizontal- und Vertikal- 
frequenzen. Auf diese Weise wird die Zeilen- und Bild- 
lage mit der Präzision des Bursts stabilisiert, so daß 
Störimpulse durch Rauschen oder Störimpulse durch 
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Haushaltsgeräte die Stabilität des Bildes nicht mehr 
beeinflussen können. Die zeitliche Auflösung des Taktes 
ist 56 ns. Das reicht zur Steuerung der Zeilenablenkung 
nicht aus. Die Genauigkeit des abgegebenen Steuerim- 
pulses wird durch eine einstellbare Kette von Verzöge- 
rungsgliedern erhöht. Die genaue Messung von Phasen- 
lage und Frequenz wird durch Mittelung über viele 
Zeilen erreicht. 


Das Vertikalsignal ist pulsweitenmoduliert. Es enthält 
bereits die notwendigen Linearitätskorrekturen. Ein 
zweiter pulsweitenmodulierter Ausgang stellt die Ost- 
West-Parabel zur Verfügung. 


Im Audio-Prozessor ist die Struktur der Signalverar- 
beitung verschieden von der Struktur des ICs. Das Kern- 
stück des Audio-Prozessors ist ein schneller 16x 8-Mul- 
tiplizierer. Die Abtastrate für das Tonsignal ist 35 kHz, 
aber jeder Wert muß durch eine Vielzahl von Filtern 
laufen mit einer Vielzahl von variierbaren Koeffizienten. 
Bild 3 zeigt ein Chip-Foto des Audio-Prozessors. Er ist 
ein ROM-gesteuerter Prozessor, der mit einem Ziel aus- 
gelegt wurde, nämlich den Durchsatz durch den Multi- 
plizierer zu maximieren. Der Instruktionszyklus ist 56 
ns. Der Multiplizierer benötigt ca. 200 ns, so daß pro 
Multiplikation drei Befehlszyklen für Verwaltungsauf- 
gaben zur Verfügung stehen. Der Audio-Prozessor erhält 
sein Eingangssignal vom Audiowandler, der nach dem 
Sigma-Delta-Prinzip arbeitet (Pulsdichtemodulation mit 
nachgeschaltetem Konversionsfilter). Die beiden Aus- 
gangssignale — für Stereobetrieb — sind pulsweitenmo- 
duliert. Durch Änderungen des ROMs kann der Audio- 
Prozessor an verschiedene Anforderungen angepaßt 
werden. 
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Dipl.-Phys. Dr. Thomas Fischer 
wurde 1948 in Essen geboren. Er 
studierte Physik; nach dem Di- 
plom 1974 promovierte er 1978 
an der Uni Freiburg. 1979 trat er 
in die Abteilung Concept Engi- 
neering der Firma ITT Intermetall 
ein, wo er seit 1980 die Gruppe 
Software-Entwicklung leitet. 
Hobbys: Skilaufen, Fotografie- 
ren, Tanzen 











Die zentrale Steuereinheit koordiniert die Aktivitäten 
der verschiedenen Signalprozessoren. Sie empfängt die 
Befehle des Benutzers über Infrarot oder Direkteingabe- 
tasten und stellt die entsprechenden Register der 
Signalprozessoren auf die benötigten Werte ein. Dies ist 
Datenverarbeitung, und erwartungsgemäß ist die Steuer- 
schaltung ein Mikrocomputer, der um einige Peripherie- 
schaltungen erweitert wurde. Dies sind Abstimm-PLL, 
serielles Businterface, Infrarot-Decoder und ein nicht- 
flüchtiger Speicher zur dauerhaften Ablage von 
Abstimm- und Abgleichinformationen. Die Program- 
mierbarkeit des Mikrocomputers erlaubt es verschiede- 
nen Herstellern, ihre Geräte nach eigenen Vorstellungen 
mit speziellen Eigenschaften auszustatten. 


Es zeigt sich, daß für extrem schnelle (videofrequente) 
Signale nur festverdrahtete Schaltungen in Frage kom- 
men. In diesem Fall erweisen sich die verhältnismäßig 
kurzen Worte und festen Filterkoeffizienten als Vorteil. 
Im Gegensatz dazu liegen beim Audio-Prozessor lange 
Worte und variable Filterkoeffizienten vor. Nur durch 
geeignete Prozessorstrukturen lassen sich zu Konsumer- 
preisen herstellbare ICs realisieren. 
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4 Weitere Anwendungen 


Aber nicht nur in der Unterhaltungselektronik ist die 
digitale Signalverarbeitung auf dem Vormarsch. Sie 
wird z.B. in Automobilanwendungen und Telefonnet- 
zen Einzug halten. Projekte, an denen gearbeitet wird, 
betreffen Autoradio, Zündung, automatische Getriebe 
und Anti-Blockier-Systeme in der Automobilanwen- 
dung oder den Einsatz für digitale Vermittlungstechnik, 
digitale Teilnehmerschaltung, Tonwahlverfahren, Digon 
(digitales Ortsnetz) und Bigfon (glasfasergestütztes 
Breitband-Kommunikationssystem). In diesen Anwen- 
dungen wird uns die digitale Echtzeitverarbeitung von 
Signalen auf Schritt und Tritt begegnen und unsere 
Umgebung beeinflussen. 

Manche Anwendungen werden die (Arbeits-)Umge- 
bung revolutionieren, z. B. der breite Einsatz syntheti- 
scher Sprache und Spracherkennung, die beide ohne 
digitale Echtzeit-Signalverarbeitung nicht vorstellbar 
sind. Für den Ingenieur liegt die Herausforderung in den 
neuen Werkzeugen technischer und theoretischer Art 
(siehe Tabelle 1), für den Hersteller in der Kombination 
neuer Techniken und Möglichkeiten (z.B. Bigfon: 
Optik/VLSVDigitaltechnik). Hier „an vorderster Front 
mitzumischen“ wird entscheidend für die Position der 
deutschen Industrie im internationalen Wettbewerb 
sein. 
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Dr.-Ing. Peter Draheim 


Digitalisierung der Video-Signalverarbeitung 
Beispiel: Video-Kassettenrecorder 


Die digitale Echtzeit-Signalverarbeitung ist seit eini- 
gen Jahren ein sehr aktuelles Thema. Insbesondere 
seitdem die Gatterlaufzeiten von MOS-Schaltungen so 
schnell geworden sind, daß sich ICs mit Taktraten von 
etwa 20 MHz realisieren lassen. Dadurch können 
Signalbandbreiten von über 6 MHz verarbeitet werden. 
Das öffnete dieser Technik, die bisher nur im profes- 


1 Systemeinführung 


Die Signalverarbeitung in Video-Kassettenrecordern 
ist, unabhängig von deren Aufzeichnungsnorm VCR, 
VHS oder Betamax, dadurch gekennzeichnet, daß die 
Luminanzinformation von dem ursprünglich amplitu- 
den-modulierten FBAS-Signal zur Aufzeichnung auf 
das Band in ein frequenzmoduliertes Signal umgewan- 
delt wird. Dies erfolgt wegen der höheren Störunemp- 
findlichkeit von FM-Signalen. 

Die im FBAS-Signal bei 4,43 MHz liegende Chromi- 
nanzinformation wird zur Aufzeichnung mit einem Trä- 
ger so heruntergemischt, daß sie frequenzmäßig unter- 
halb der nun frequenzmodulierten Luminanzinforma- 
tion liegt. Sie bleibt jedoch amplituden-moduliert. In 
Bild 1 ist das Spektrum der aufgezeichneten Videosi- 
gnale für ein VCR-Gerät des Typs V 2000 dargestellt, 
wobei in der Abbildung auch noch die DTF-Signale 
(Dynamic Track Following) eingezeichnet sind, die zur 
Band-Kopf-Steuerung benötigt werden und die fre- 
quenzmäßig noch unterhalb der Chrominanzinforma- 
tion aufgezeichnet werden. 

Die einzelnen Normen unterscheiden sich nun im 
wesentlichen in den Frequenzlagen und den Modula- 
tionshüben. Im weiteren wird hier nur auf das VCR- 
System V 2000 eingegangen. Bild 2 zeigt eine sehr ver- 
einfachte Prinzipschaltung der VCR-Aufnahme und 
-Wiedergabe. Für die Aufnahme wird das 5 MHz breite 
FBAS-Signal über ein Tiefpaß-Filter in ein 3,0 MHz 
breites Luminanzsignal und über einen Bandpaß in das 
4,43 MHz geträgerte Chrominanzsignal aufgespalten. 
Das Luminanzsignal wird dann so frequenzmoduliert, 
daß die Synchronimpulse der unteren Hubfrequenz des 
Modulators von 3,3 MHz zugeordnet werden. Die 


sionellen Bereich angewandt wurde, die Tür für Kon- 
sum-Applikationen. Bisher wurde jedoch fast aus- 
schließlich über Anwendungen in Fernsehempfängern 
berichtet [1]. Der folgende Beitrag beschreibt die 
Anwendung dieser Technik in einem Video-Kassetten- 
recorder des Systems V 2000, wobei zunächst die 
prinzipielle Verarbeitungsstruktur erläutert wird. 


Schwarzschulter liegt dann bei 3,8 MHz, die obere Hub- 
frequenz von 4,8 MHz stellt das Spitzenweiß dar. 

Das Chrominanzsignal wird mit einem 5,06-MHz-Trä- 
ger, der aus dem Burst und der Zeilenfrequenz gewon- 
nen worden ist, auf 625 kHz heruntergemischt und dann 
zusammen mit der Luminanz auf das Band gegeben. Der 
entsprechende inverse Vorgang läuft dann wie in Bild 2 
vereinfacht dargestellt für die Wiedergabe vom Band ab. 
Das hier sehr grob beschriebene Prinzip wird als 
„Colour-Under“-Verfahren bezeichnet. 


2 Warum Digitalisierung? 


Nach dieser kurzen Systemeinführung soll nun die 
digitale Realisierung des „Colour-Under“-Verfahrens für 








Amplitude — 
DTF-Signale 
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Bild 1. Spektrum der aufgezeichneten Signale eines 
Video-Kassettenrecorders 
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das V 2000-System betrachtet werden. Dabei wird für 
die Digitalisierung von der Randbedingung ausgegan- 
gen, daß in der bisherigen analogen Bandaufzeichnungs- 
art und in der V 2000-Norm keinerlei Modifikationen 
erfolgen sollen. Das bedeutet, daß nur die Signalverar- 
beitung, kompatibel zu dem schon bestehenden System, 
digitalisiert wird. 

Ausgehend von dem hier vorliegenden, sehr komple- 
xen Signalverarbeitungssystem, so stellt sich zuerst die 
Frage nach dem Vorteil einer Digitalisierung. Da in der 
VCR-Signalverarbeitung eine mehrfache Signalumset- 
zung vorgenommen wird, ist dies mit einem hohen 
Aufwand für Filter sowie auch einigem Aufwand zur 
Trägererzeugung verbunden. Das heißt, es werden zur 
Realisierung der Signalverarbeitung neben einigen ICs 
eine Vielzahl von peripheren Komponenten für die Fil- 
terfunktionen benötigt, wobei die Kosten für die Peri- 
pherie und deren Abgleich die IC-Kosten bei weitem 
überschreiten. Diese Situation wird auch bei einer wei- 
teren Zusammenfassung der IC-Funktionen nicht 
wesentlich verbessert, da die Filterfunktionen in analo- 
ger Schaltungstechnik zur Zeit nicht monolithisch mit 





VCR- Aufnahme 








5,06 MHz 


Bild 2. Vereinfachte Prinzipschaltungen für VCR-Aufnahme 
und -Wiedergabe (Analogtechnik) 


En ya 


A 
Bild 3. Prinzipschaltung eines digitalen FM-Modulators 
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den bipolaren ICs integriert werden können. Dies kann 
nur durch den Übergang in eine digitale Schaltungstech- 
nik erreicht werden, wobei solche Arbeiten für den 
Fernsehbereich ebenfalls schon durchgeführt werden. 

Das erste Ziel einer Digitalisierung der VCR-Videosi- 
gnalverarbeitung ist somit eine wesentliche Verbesse- 
rung der Ökonomie des Systems durch Reduktion des 
Peripherieaufwandes. 


3 Realisierung der digitalen Signalverarbeitung 


Betrachtet man die Blockschaltung in Bild 2, so sind 
die zentralen Funktionselemente für eine digitale 
Signalverarbeitung in einem Video-Kassettenrecorder 
die digitale Frequenz-Modulation, die Mischung und 
die Frequenz-Demodulation. Das sind auch die drei 
Funktionseinheiten, in denen sich die Videosignalverar- 
beitung im VCR-Gerät von der des Fernsehempfängers 
(mit Ausnahme der Demodulation von SECAM- 
Signalen) unterscheidet. 


3.1 Digitaler FM-Modulator 





Der von seiner digitalen Struktur einfachste Baustein 
ist der FM-Modulator. Bild 3 zeigt die Blockschaltung 
eines digitalen FM-Modulators. Dieser besteht aus zwei 
Addierern, einem Speicher und einer Sinustafel. Der 
erste Addierer bildet die Summe aus den digitalen Ein- 
gangsamplitudenwerten und einem konstanten digita- 
len Wert A, der proportional ist der unteren stationären 
Modulationsfrequenz. 

Der zweite Addierer wirkt zusammen mit dem Spei- 
cher als Integrierer. Durch die endliche Wortbreite des 
Addierers kommt es bei der ständigen Addition der 
verzögerten Ausgangswerte zu den Eingangswerten 
(Integration) zu einem Überlauf. Damit entspricht das 
Additionsergebnis hinter dem Speicher Abtastwerten 
einer sägezahnförmigen Schwingung konstanter Ampli- 
tude. Die Frequenz dieser Schwingung wird durch die 
Eingangswerte in den Modulator streng linear beein- 
flußt. Ein nachfolgendes ROM, in dem eine Sinustafel 
abgespeichert ist, setzt die Abtastwerte der sägezahnför- 
migen Schwingung in die Abtastwerte einer harmoni- 
schen Schwingung um. Dieser FM-Modulator ist jedoch 
auch das Basisbauelement für die Erzeugung des Trägers 
eines digitalen Frequenzmischers, wobei die eigentliche 
Mischung nur mit Hilfe eines Multiplizierers geschieht. 
Die Trägergeneration erfolgt über einen FM-Modulator 
mit festem Eingangswert. Hierbei bestimmt die Wort- 
breite der internen Verarbeitung im FM-Modulator die 
Genauigkeit der Frequenz. 


3.2 Digitaler FM-Demodulator 


Der digitale FM-Demodulator ist von den drei Kompo- 
nenten die aufwendigste und kritischste Schaltung. Im 
Gegensatz zur analogen FM-Demodulation, bei der man 
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zur Störunterdrückung von überlagerten AM-Signalen 
einen Begrenzerverstärker vorschalten kann, ist das bei 
einem digitalen FM-Demodulator nicht möglich. In 
einem Digitalwort liegt die Information in den zeitdis- 
kretisierten und quantisierten Amplitudenwerten. Eine 
„Begrenzung“ würde einer Reduktion der Quantisie- 
rungsstufen bis hin zu einem Bit und damit der Auflö- 
sung entsprechen, also einem Verlust an Information. 

Daneben bedeutet eine Begrenzung jedoch auch die 
Erzeugung hochfrequenter Signalanteile, die wegen der 
Diskretisierung des Signales zu Faltungsprodukten und 
damit zu Störungen führen, die auch nicht durch zusätz- 
lichen Filteraufwand zu beheben sind. 

Diese Argumente leiten dazu, die vom Band kommen- 
den Signale, nur über den Kopfverstärker des Videokop- 
fes verstärkt, direkt analog/digital umzusetzen und digi- 
tal weiterzuverarbeiten. Da die vom Band kommenden 
FM-Signale mit starken AM-Störungen und Rauschen 
überlagert sind, muß somit ein FM-Demodulationsver- 
fahren gewählt werden, das eine große AM-Unempfind- 
lichkeit gewährleistet. Das im folgenden beschriebene 
digitale Verfahren, das prinzipiell einem analogen 
Ratiodetektor entspricht, zeigt eine hohe AM-Unemp- 
findlichkeit. Bild 4 zeigt die Prinzipschaltung des digi- 
talen FM-Demodulators. 

Das AM-behaftete FM-Eingangssignal E = S - sin (ot) 
wird auf ein Transversal-Filter gegeben und gleichzeitig 
auf einen Speicher zum Laufzeitausgleich. Die Filter- 
charakteristik (hier ein sin?-Filter) ist die Diskriminator- 
kennlinie des FM-Demodulators und ist in Bild 5 darge- 
stellt. Das über diese Diskriminatorkennlinie „gelau- 
fene“ Signal wird nun durch das um die Filterlaufzeit 
verzögerte Signal dividiert, und am Ausgang liegt dann 
ein von AM-Störungen befreites Signal vor, entspre- 
chend den in Bild 4 eingetragenen Gleichungen, wobei 
S die Amplituden-modulierte Störung darstellt. Hierbei 
wird davon ausgegangen, daß die Änderung von S zwi- 
schen zwei Abtastwerten (Abtastfrequenz 17,73 MHz) 
klein ist. 

Die Blockschaltung für das sin?-Filter zur Realisierung 
der Diskriminatorkennlinie ist in Bild 6 dargestellt. Es 
ist ein sehr einfaches Transversalfilter, das über zwei 
Addierer und zwei Flipflops realisiert worden ist. 
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A(w) = Filtercharakteristik 
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fr= 1173MHz (Taktfrequenz) 
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Bild 4. Digitaler FM-Demodulator 








Dieser hier vorgestellte digitale FM-Demodulator 
benötigt jedoch einen digitalen Dividierer, d.h. einen 
Baustein, der in der Digitaltechnik bisher unüblich war. 
Da die Funktionsweise eines Pipelining-Dividierers 
schon ausführlich beschrieben worden ist [2], wird hier 
nicht weiter darauf eingegangen. Es soll nur noch ein- 
mal betont werden, daß die Realisierung dieses, mit 
einer Taktrate von 17,73 MHz arbeitenden digitalen 
Dividierers den Schlüssel für eine AM-unempfindliche 
FM-Demodulation darstellt. 

Für sehr kleine Signale, d.h. für den Fall, daß der 
Zähler und der Nenner gegen Null gehen, wird dann 
noch eine Korrekturschaltung benötigt, um auch bei 
einer Division „Null“ durch „Null“ ein gültiges Ergebnis 
abliefern zu können. 

Ein weiteres Verfahren, das zur FM-Demodulation 
eine Nulldurchgangsdetektion verwendet, zeigt ähnlich 
gute Ergebnisse und benötigt ebenfalls einen Dividierer. 

In Bild 7 ist schließlich die Blockschaltung der digita- 
len Video-Signalverarbeitung für die VCR-Aufnahme 
dargestellt und in Bild 8 für die Wiedergabe. Vergleicht 
man diese mit Bild 2, so sieht man, daß hier strukturell 
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Bild 6. Prinzipschaltung des Transversalfilters zum digitalen 
FM-Demodulator 











« Bild 5. Diskriminator-Kennlinie des FM-Demodulators 
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Bild 7. Blockschaltung des VCR-Aufnahmeteils (Digitaltechnik) 
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eine direkte Umsetzung der analogen Signalverarbei- 
tung in die digitale Ebene vorliegt. Alle Funktionen, 
einschließlich der A/D- und D/A-Umsetzung, sind von 
ihren Geschwindigkeitsanforderungen in einem Stan- 
dard-NMOS-Prozeß realisierbar und werden in einer 
ersten Stufe zu fünf ICs für die komplette Aufnahme und 
Wiedergabe führen. Hierbei ist anzumerken, daß man 
für die A/D-Umsetzung eine Auflösung von 7 Bit und für 
die D/A-Umsetzung eine Auflösung von 8 Bit benötigt. 


4 System-Architektur 


Das ganze System ist nach dem Verfahren eines 
„Distributed Processing“ organisiert, bei dem einige 
anwendungsorientierte Echtzeit-Signalprozessoren, 
gesteuert von einem als Controller eingesetzten Univer- 
sal-Mikrocomputer (z.B. MAB 84xx), überwacht und 
entsprechend beeinflußt werden. Zum Beispiel werden 
über den Mikrocomputer die einzelnen Filtercharakteri- 
stika innerhalb der Signalprozessoren dem jeweiligen 
Betriebszustand angepaßt. Man verfügt somit über eine 
hohe Systemflexibilität und kann individuelle System- 
anpassungen im ROM-Speicher eines Mikrocomputers 
ablegen. 

Der Autor wurde in Heft 3/1982 vorgestellt. 


5 Digitalisierung erlaubt Zusatzfunktionen 


Dieser erste Schritt einer Digitalisierung in Form einer 
„Eins zu Eins“-Umsetzung des analogen Systems ist 
einzig und allein auf eine Ökonomieverbesserung durch 
Peripheriereduktion orientiert. Allerdings kommen 
auch hier schon die phasenlinearen digitalen Filter 
einer Bildverbesserung entgegen. In weiteren Schritten 
ist es nun jedoch möglich, durch Zusatzschaltungen in 
dem digitalen System wesentliche Wiedergabeverbesse- 
rungen und auch einige Zusatzfunktionen zu reali- 
sieren. 

Als Beispiele sollen hier eine Rauschreduktion und 
eine Zeitbasiskorrektur angeführt werden. Eine sehr 
effektive Rauschreduktion für die Wiedergabe ist bei 
geeigneter Wahl des Algorithmus mit sehr viel weniger 
als einem 1-MBit-Bildspeicher zu realisieren. 

Eine Zeitbasiskorrektur, die die Ungleichmäßigkeiten 
im Bandlauf korrigiert, macht es möglich, daß man 
Signale von zwei unterschiedlichen VCR-Geräten 
mischen kann, was heute infolge der Zeitbasisfehler 
nicht möglich ist. 
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Bild 8. Blockschaltung des VCR-Wiedergabeteils 
(Digitaltechnik) 
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Dipl.-Ing. Albin Oberhofer 


Zustandsregelung mit digitalen Filtern 


Um die zahlreichen Erfahrungen im Umgang mit dem 
klassischen PID-Regler weiter anwenden zu können, 
wird mit digitalen Reglern meist eine quasi-stetige 
Realisierung der bekannten zeitkontinuierlichen Reg- 
ler angestrebt. Die Abtastrate (Rechenschrittweite) 
muß dabei so festgelegt werden, daß der kontinuierli- 
che Regler hinreichend genau simuliert wird. Die 
Dynamik der Regelstrecke und des Regelkreises geht 


Zur Realisierung des Reglers können rekursive Digi- 
talfilter verwendet werden. An einem abschließenden 
Beispiel wird deutlich, daß das auf der Zustandsrege- 
lung basierende Konzept der digitalen Regelung für 
beliebige Abtastraten anwendbar ist. 


1 Konzept der Zustandsregelung 


Ausgegangen wird von einer nicht sprungfähigen, 
linearen und zeitinvarianten Regelstrecke mit einem 
Stelleingang ut) und m>1 meßbaren Ausgängen y;lt), i 
= 1,2,...,m, die im Ausgangsvektor y(t) = [yılt) yelt) -.- 
Ym(t)]" zusammengefaßt seien. Die Strecke ist mit dem 
Zustandsvektor x{t) = [xılt) xalt) -.. lt)” und den 
konstanten Matrizen A, b und € durch die beiden Glei- 
chungen = 


x(t)= Ax(t+bu(t) (1) 
ymM=CcxM (2) 


zu beschreiben [1]. 

Ein Zustandsregler erzeugt das Stellsignal u(t) mit 
dem Rückführvektor kT = [kı k; ... k„] nach der Vor- 
schrift Dr 
ulhl=kxth-L-wih) = Dk,°x,(h)-Lw(h) (3) 

ja 
wobei nun die Führungsgröße w({t) das Eingangssignal 
des Zustandsregelkreises darstellt (Bild 1). Als Regel- 
größe kann ein beliebiges Streckenausgangssignal y;ft) 
festgelegt werden (mit einem Stellsignal ist nur ein 
Ausgangssignal frei zu regeln). Der Bewertungsfaktor L, 
mit dem das Führungssignal in den Regelkreis einge- 


dabei nicht unmittelbar in die Festlegung der benötig- 
ten Abtastrate ein. Dieser Beitrag zeigt, wie dieser 
Nachteil vermieden werden kann. Dazu wird ein dis- 
kretes Streckenmodell in Form einer z-Übertragungs- 
funktion ermittelt, mit dem dann direkt die z-Übertra- 
gungsfunktion des digitalen Reglers zu berechnen ist. 
Der Umweg über den Entwurf eines kontinuierlichen 
Reglers entfällt somit. 


führt wird, wird so festgelegt, daß stationär die Regel- 
größe den Wert der Führungsgröße annimmt. 

Während die Dynamik der Regelstrecke durch die 
Nullstellen des charakteristischen Polynoms det(sl-A) 
(I: Einheitsmatrix) festliegt, kann die Dynamik des 
Regelkreises nach Bild 1 durch den Rückführvektor k 
beliebig beeinflußt werden, wenn die Strecke vollstän- 
dig steuerbar ist [1]. 

Letzteres sei ebenso wie die vollständige Beobachtbar- 
keit im folgenden stets vorausgesetzt. 

Durch geeignete Wahl von k können dem Zustandsre- 
gelkreis beliebige Eigenwerte — das sind die Nullstellen 
des charakteristischen Polynoms det(sI-A+bk'") — aufge- 
prägt werden. Der Zweck der Anordnung nach Bild 1 ist 
die Beeinflussung der Streckendynamik durch beliebi- 
ges Verschieben der Streckeneigenwerte. 

Das geschilderte Konzept ist offensichtlich nur dann 
realisierbar, wenn alle Zustandsgrößen meßtechnisch 
zugänglich sind. Dies ist aber in den meisten prakti- 
schen Anwendungen nicht der Fall, da oftmals die 
Kosten für die Installation der Meßglieder zu groß sind 
oder sie erst gar nicht angebracht werden können. 





yih) 





Bild 1. Prinzipieller 
Aufbau eines Zustandsregelkreises 
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Regelstrecke 
Beobachter 
Zustands- 
regler 


Bild 2. Zustandsregelkreis mit Beobachter: Der Be- 
obachter ist ein dynamisches, lineares System, das 








einen Schätzwert x(t) als Ausgangssignal liefert 





Um auch in diesen praktisch relevanten Fällen das 
Konzept der Zustandsgrößen-Rückführung beibehalten 
zu können, ist ein Zustandsbeobachter einzusetzen, der 
einen Schätzwert xX{t) für den Streckenzustand bereit- 
stellt. Der Regelkreis wird geschlossen, indem im Regel- 
gesetz nach Gl.(3) anstelle von x(t) der Schätzwert x{t) 
verwendet wird. Bemerkenswert ist, daß der Beobachter 
so konstruiert werden kann, daß das Regelkreisverhalten 
zwischen dem Führungseingang w({t) und dem Strecken- 
ausgang y(t) unabhängig davon ist, ob nun der beobach- 
tete Zustandsvektor x(t) oder der tatsächliche Strecken- 
zustand x({t) zurückgeführt wird. Von dieser Tatsache 
wird an späterer Stelle Gebrauch gemacht werden. 

Der Beobachter selbst ist ein dynamisches, lineares 
System mit m+1 Eingängen und n Ausgängen, welches 
bei Anregung mit den an der Regelstrecke anliegenden 
Signalen u(t) und y(t) die Komponenten X;(t), i=1, ..., n, 
des Schätzwertes X{t) liefert (Bild 2). Berücksichtigt 
man, daß zur Anwendung des Regelgesetzes nach Gl. (3) 
nur die Linearkombination k'x(t) zugänglich sein muß, 
dann kann man auf de 
explizite Beobachtung 


2 Übergang zur Frequenzbereichsdarstellung 


Die Realisierung des Zustandsregelungskonzeptes soll 
nur unter Verwendung der Signale u(t) und y{t) erfolgen, 
womit auch auf die Kenntnis der inneren Struktur der 
Regelstrecke, wie sie mit den Gl.(1), (2) beschrieben 
wird, verzichtet werden kann. 

Es ist ausreichend, das Ein-/Ausgangsverhalten zwi- 
schen dem Stelleingriff u(t) und den Ausgängen yılt), 





Yalt), .:, Ym(t) zu kennen. Dies sei durch die Strecken- 
übertragungsfunktionen 

F = = 

s, (IS) Lu) = 12, M 


bekannt und vorgegeben. 

Der Einsatz von Digitalfiltern zur Regelung der konti- 
nuierlichen Regelstrecke erfordert die Verwendung von 
Analog/Digital-Umsetzern zur Erfassung der Meßsignale 
und eines Digital/Analog-Umsetzers zur Erzeugung des 
analogen Stellsignals uft). In Bild 3 ist die gesamte 
Regelkreisstruktur dargestellt. Die Abtastung der Ana- 
logsignale erfolge im Abstand T (Abtastzeit) zu den 
Zeitpunkten t=kT (k=0,1,2,...).. Der D/A-Umsetzer 
erzeuge ausgangsseitig aus der Folge u(KT) das kontinu- 
ierliche Stellsignal u(t) mit u(t) = u(kKT) im Intervall 
KT<t<(k+1)T. 

Der nichtlineare Block in Bild 3 stellt einen Begrenzer 
dar, der zwei Aufgaben erfüllt. Zum einen wird damit 
sichergestellt, daß der D/A-Umsetzer nicht über den 
zulässigen Eingangszahlenbereich ausgesteuert wird. 
Die zweite Funktion ist die Nachbildung der grundsätz- 
lich immer vorhandenen Stellsignalbegrenzung am Ein- 
gang der Regelstrecke (Stellglied); dadurch ist gesichert, 
daß dem Beobachter jenes (begrenzte) Stellsignal zuge- 

führt wird, welches tat- 
sächlich den Linearteil 





des Streckenzustandes 
verzichten und den Zu- 
standsregler mit dem Be- 
obachter zu einer Ein- 
heit zusammenfassen. 
Damit stellt sich die Auf- 
gabe, ein System mit 
m+1 Eingängen und ei- 
nem Ausgang zur Bil- 
dung von k'x(t) zu kon- 
struieren. Es handelt 
sich offenbar um eine 
Filteraufgabe, die mit 
analogen Filtern unmit- 
telbar behandelt werden 
kann. Im folgenden wird 
gezeigt, wie diese Aufga- 
be auch mit digitalen 
Filtern zu lösen ist, mit 
denen die Abtastwerte L- 


Begrenzer 





Regelstrecke 





der Strecke erreicht. 
Der Beobachter ist so- 
mit auch dann in der 
Lage, den Streckenzu- 
stand zu rekonstru- 
ieren, wenn das Stellsi- 
gnal in der Begrenzung 
ist. Diese für eine prak- 
tische Realisierung äu- 
Berst nützliche Struktur 
wurde erstmals von Ch. 
Wurmthaler angegeben 
[2,3]. 

Die Aufgabe des Reg- 
lerentwurfs besteht im 
weiteren darin, die di- 
gitalen Filter in Bild 3 
mit den Übertragungs- 
funktionen GrulZ), 
GrılZ), Gr2(Z), ..., Grm(Z) 








der an der Strecke anlie- 
genden Signale indivi- 





Bild 3. Struktur des Zustandsregelkreises bei Verwendung 
von digitalen Filtern zur Ermittlung des Schätzwertes K'x(KT) 


so zu dimensionieren, 
daß der Regelkreis ein 
gewünschtes Verhalten 








duell gefiltert werden. 
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aufweist. Bevor dies dargestellt werden kann, ist für die 
kontinuierliche Regelstrecke mit den angeschalteten 
D/A- und A/D-Umsetzern eine zeitdiskrete Beschrei- 
bung zu finden, so daß der gesamte Regelkreis ausschließ- 
lich mit diskreten z-Übertragungsfunktionen zu beschrei- 
ben ist. 


3 Zeitdiskrete Beschreibung der Regelstrecke 


In Bild 4 ist ein Übertragungskanal der Regelstrecke 
mit den entsprechenden Umsetzern für sich dargestellt. 
Dieses Teilsystem wird eingangsseitig mit der Zahlen- 
folge u(KT) erregt und erzeugt daraufhin eine Ausgangs- 
folge y(KT). In [4] z. B. ist gezeigt, daß der erzeugende 


ulKT) =} y{KT) -@- 


fl Br le lat 


Bild 4. Anstelle des Analogfilters F(s) mit D/A- und A/D- 
Umsetzern kann das digitale Filter G(z) verwendet werden; 
die beiden Anordnungen sind identisch 














Mechanismus zwischen u(kT) und y(KT) linear und 
damit durch eine diskrete Übertragungsfunktion 
beschreibbar ist. Ein digitales Filter G(z) als Streckenmo- 
dell hat genau dann das Verhalten der im Bild 4 gezeig- 
ten Anordnung, wenn die Vorschrift 


} (4) 


t=KT 


z-1 -1,Fts) 
id=— z{L (. 





zur Ermittlung der Filterübertragungsfunktion G(z) 
angewendet wird [7]. 

Die Transformationsvorschrift nach Gl.(4) wird als 
sprungantwort-invariante Transformation bezeichnet, 
da die Sprungantwortfolge des Filters G(z) identisch ist 
mit der Folge der Abtastwerte der Sprungantwort des 
kontinuierlichen Systems F(s) zu den Zeitpunkten 
t=kT,k=0,12... [3]: 

Zwischen den Polstellen der beiden Übertragungs- 
funktionen G(z) und F(s) aus Gl. (4) besteht der folgende 
einfache Zusammenhang: Hat F(s) einen Pol an der 
Stelle s=s.., so hat G(z) einen Pol an der Stelle z= e’®". 

Wendet man Gl.(4) auf die m Streckenübertragungs- 
funktionen F;s;(s) an, dann erhält man schließlich einen 
Satz von diskreten z-Übertragungsfunktionen 


Gs, (z) = Zty(KT)} & Zsi(Z) 
Z{u(KT)} Ns (z) 


mit denen der Regelkreis auf die im Bild 5 gezeigte Form 
zu bringen ist. Für die einzelnen Reglerübertragungs- 
funktionen Gru(Z), Gri(zZ) sind die Zählerpolynome 
ZrulZ), Zri(z) sowie das Nennerpolynom D(z) eingesetzt 
worden, wobei deren Grad zunächst noch nicht festge- 
legt ist. 


4 Entwurf des digitalen Zustandsreglers 


Die Entwurfsaufgabe besteht darin, die Übertragungs- 
funktionen in den einzelnen Pfaden des Reglers so zu 
bestimmen, daß gewisse Entwurfsvorgaben erfüllt sind. 

Man ermittelt leicht aus Bild 5 für die Führungsüber- 
tragungsfunktionen den Ausdruck 


2 Ziy kl L:Zs;(z):D(z) 


G,;(z)= 2 7 

Z{w(kT)} Netz)-TZR,(z)+DiZ)]+ D’Zs; (Z)- Zri(z) 

i=1 

Das frei vorgebbare Nennerpolynom D(z) der einzelnen 
Filter ist das charakteristische Polynom des eingebauten 
Zustandsbeobachters. Mit ihm ist festzulegen, in wel- 
cher Weise Beobachtungsfehler, die z. B. durch Störein- 
griffe entstanden sein können, abklingen. Zur Bestim- 
mung der noch fehlenden Reglerpolynome Zxu(Z), Zri(Z) 
wird nun von der eingangs erwähnten Möglichkeit 


(5) 





Streckenmodell 


y, (KT) 


Ym (KT) 








| 


Zustandsregler mit Beobachter 














L’w(KT) 
I 
Bild 5. Zustandsregelkreis mit zeitdiskretem 
Streckenmodell zur Berechnung der Zählerpoly- 
nome Z;,(Z) und Z,;(z) des digitalen Reglers 














Gebrauch gemacht, das charakteristische Polynom des 
Regelkreises durch den Einsatz eines Zustandsreglers 
beliebig gestalten zu können. 

Das charakteristische Polynom des hier vorliegenden 
Regelkreises ist in Gl. (5) im Nenner angegeben. Offenbar 
ist das Führungsverhalten genau dann vom Beobachter- 
polynom D(z) (und damit vom Beobachter selbst) unab- 
hängig, wenn D(z) als Faktor im charakteristischen Poly- 
nom enthalten ist. Damit gelangt man zur Entwurfsglei- 
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Bild 6. Signalflußgraph für eine günstige Realisierung des 


digitalen Zustandsreglers 





| ıe@ REM DIGITALER ZUSTANDSPEGL.ER 

110 REM VOM GRAD R MIT M MESSGROESSEN 

1ec0 ; 

138 REM HIER MESSGROESSEN Ye ls... YCM) ABTASTEN 

140 : 

1592 V=KCR) 3 FOR I=1 TOM : V=V+GCI,RIeYCI) 2: NEXT I 

1688 Ul=L#ll - V !REM BEGRENZERE INGANG 
ABS U1)>1 THEN U=SGNt U1) "REM BEGRENZERAUSGANG 


178 U=U1: IF 
1808 REM HIER AUSGABE DES STELLSIGNALS U AN D/A-WANDLER 


21a FOR J=R TO I STEP -1 
BEO KEII=RtI-1) - DOI-YIHV + GUCJ-1IHU 


238 FOR I=1 TOM: KH=KCJ) + GEIL,ÄJI-1D2KYCD : NEXT 1 
| 2aB NEXT a 
72) 
WARTE BIS ABTASTZEIT VERGANGEN 


e60 REM 
278 : 


ZBe GOTO 138 REM NAECHSTER ABTASTSCHRITT 


Bild 7 BASIC-Programm zum Siqnalflußgraphen im Bild t 


Bild 7. BASIC-Programm zum Signalflußgraphen von Bild 6 











chung, mit der die Reglerpolynome Zxulz), Zrilz) zu 
ermitteln sind: 


m 
Ns (z)- [Zrulz)+D(z)]l+ 2 Zsi(z):Zri(Z) =N (z):D(z) 


bzw. m 7 (6) 


Ns (Z):Zaulz)+ > 25, (2):Za (ZI=INIZ)-Ns (Z)]-Diz) 
1 


Mit dem nach G]l.(6) entworfenen Regler ergeben sich 
die Führungsübertragungsfunktionen 


Ga Zei) 
N(z) 


und man erkennt, daß im Vergleich mit den Übertra- 
gungsfunktionen 


= Zs,(Z) 
Ns (z) 


der ungeregelten Strecke das Nennerpolynom Ns(z) 
durch das beliebig vorgebbare Polynom N(z) ersetzt wor- 
den ist. 

Zur Auswertung der Entwurfsgleichung (6) ist zu 
sagen, daß man zunächst die zu ermittelnden Reglerpo- 
lynome mit dem Grad r=n-m allgemein ansetzt und 
durch Koeffizientenvergleich ein lineares Gleichungssy- 
stem zur Ermittlung der (r+1) : (m+1) unbekannten 


Gs; (z) 
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Polynomkoeffizienten gewinnt. Im Fall m=1 ist das sich 
ergebende Gleichungssystem stets eindeutig lösbar. Ist 
m>1, kann das Gleichungssystem unterbestimmt sein, 
was bedeutet, daß die gestellte Regelungsaufgabe mit 
einem Reglergrad r<n-m gelöst werden kann. 


5 Realisierung des digitalen Reglers 


Die im Bild 3 dargestellte Struktur des Regelkreises 
kann unmittelbar als Realisierungsvorschrift betrachtet 
werden. Demnach sind m+1 rekursive Digitalfilter mit 
den Signalen u(KT), yı(KT), ..., ym(KT) zu erregen und 
deren Ausgangssignale zu addieren. Offensichtlich ist 
diese Lösung nur dann praktikabel, wenn die Anzahl m 
der Meßsignale nicht zu groß ist. 

Eine erhebliche Reduzierung des Aufwandes ergibt 
sich bei Berücksichtigung der Tatsache, daß sämtliche 
Reglerfilter das gleiche Nennerpolynom D(z) haben. 
Dann nämlich sind die m+1 Teilfilter r-ten Grades 
durch ein einziges Filter vom Grad r mit m+1 Eingän- 
gen zu ersetzen. 

In Bild 6 ist der Signalflußgraph für diese Reglerreali- 
sierung angegeben. Aus dem Signalflußgraphen kann 
neben einer Hardwarerealisierung auch ein Rechenalgo- 
rithmus für eine softwaretechnische Reglerrealisierung 
gewonnen werden. In Bild 7 ist dieser Algorithmus in 
Form eines BASIC-Programms angegeben. Er eignet sich 
besonders zur Programmierung eines Signalprozessors. 

Das nachfolgend angeführte Beispiel wurde mit einem 
entsprechend programmierten Bit-Slice-Rechenwerk 
(AMD2903, Gleitkommaarithmetik, 16-Bit-Mantisse) 
erstellt. Dieses Gerät läßt sich z. B. bei Verwendung von 
m=2 Meßsignalen als Regler vom Grad r=3 mit einer 
Abtastfrequenz von 5 kHz betreiben [6]. Das ist für viele 
Regelungsprobleme ausreichend. 


6 Beispiel 


Zur Veranschaulichung des vorgestellten Konzeptes 
seien erzielte Ergebnisse bei der Regelung einer stark 
schwingungsfähigen Regelstrecke angegeben. 

Die Regelstrecke mit der Übertragungsfunktion 
wo? 

zZ: 


Fl U — 
= s?+2Dw,S+W) 


wo, =10005", D= 0,2 


wird in die Struktur nach Bild 3 eingebettet (m=1). 





Dipl.-Ing. Albin Oberhofer ist als Niederbayer 
in Vilsbiburg geboren. Er studierte Elektro- 
technik zunächst an der Fachhochschule Nürn- 
berg und dann an der Universität Erlangen- 
Nürnberg. Sein Studienschwerpunkt lag im 
Bereich der Regelungs- und Nachrichtentech- 
nik. Seit zwei Jahren ist er als wissenschaftli- 
cher Mitarbeiter am Institut für Regelungs- 
technik der Universität Erlangen-Nürnberg 
(Prof. Dr. H. Schlitt) tätig. Die digitale Rege- 
lung - insbesondere ihre Anwendung in der 
hydraulischen Antriebstechnik - ist sein Ar- 
beitsbereich 














Steuer- und Regeltechnik 














DJ EM A N ln 
1 234,56 78% 0 m zZ 13 1% 
HT —e 
ohne Regelung Tsims 






mit Regelung 











et 
02 131% 





Bild 8. Regelung einer schwingungsfähigen Regelstrecke 











Gefordert sei ein aperiodisch gedämpftes Übergangs- 
verhalten zwischen dem Führungseingriff w und der 
Regelgröße (Streckenausgangssignal yıft)). 

Mit der Abtastzeit T=1 ms wird unter Verwendung 
von Gl.(4) zunächst die diskrete Streckenübertragungs- 
funktion 


Gslz)= 0,4052+0,353 


2?-0,912z+0,670 

ermittelt. Die gestellte Regelungsaufgabe ist mit Filtern 
ersten Grades lösbar. Aperiodisches Regelkreisverhalten 
ist z. B. mit der Vorgabe 


Ntz) = (z-0,14)2 
D(z) = z-0,2 
(reelle Pole im Regelkreis) gewährleistet. 


Die Lösung der Entwurfsgleichung (6) ermittelt ein- 
deutig die Filterübertragungsfunktionen 


0,579 
Eule 
Ru(Z) 2-02 

0,1322-0,730 
u 


Der Führungsgrößenfaktor wird mit L = 0,976 so festge- 
legt, dal stationär die Regelgröße den Wert der Füh- 
rungsgröße annimmt. 

In Bild 8 sind die Sprungantworten von geregelter und 
ungeregelter Strecke zusammen mit dem Stellsignal des 
digitalen Reglers angegeben. 


7 Wahl der Abtastzeit 


Mit dem dargestellten Konzept der Regelung mit digi- 
talen Filtern ist für jede beliebige Wahl der Abtastzeit T 
gesichert, daß die Regelgröße zu den Zeitpunkten t=kT 
die mit der Entwurfsvorgabe (N(z),D(z)) angestrebten 


Werte annimmt. Dabei ist zu beachten, daß der Verlauf 
der Regelgröße zwischen zwei aufeinanderfolgenden 
Abtastzeitpunkten nur vom Verhalten der Regelstrecke 
abhängt. Dies wird verursacht durch das treppenförmige 
Stellsignal, das nur zu den Abtastzeitpunkten vom Reg- 
ler beeinflußt wird. 

In Bild 9 ist die im Beispiel verwendete Regelstrecke 
mit einer Abtastzeit von T=20 ms geregelt. Die Füh- 





Stellsignal 












ohne Regelung T=20ms 


mit Regelung 










Punkte vorgegeben 
durch N(z)=(z-0,45)? 





0 a| 2 3 4 5 6 7 8 9 


NT —e 


Bild 9. Führungssprungantwort bei geringer Abtastrate 








rungssprungantwort hat zu den Abtastzeitpunkten den 
im Reglerentwurf eingebrachten Verlauf; die Interpola- 
tion dazwischen erfolgt mit der Sprungantwort der 
Strecke. 
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Ekkehard Kreß 


Signalprozessor als PID-Regler 
Anwendungsbeispiel „schwebende Kugel“ 


Digitale Einchip-Signalprozessoren finden bevorzugt 
als hochstabile Tonfrequenzfilter Anwendung. Aber 
auch für regelungstechnische Problemstellungen bie- 
ten sie sich an. Dieser Beitrag stellt eine Schaltung mit 


1 Der Signalprozessor 


Der Analog-Signalprozessor 2920 von Intel [1] ist in 
NMOS-Technologie hergestellt, verfügt über 192 x 24 
Bit EPROM, 40 x 25 Bit RAM und ist in einem Gehäuse 
mit 28 Anschlüssen untergebracht. Der Baustein hat vier 
Analogeingänge und wahlweise acht Analog- bzw. Digi- 
talausgänge (Auflösung: 9 Bit). Die Befehlszykluszeit 
beträgt 600 ns. Pro Zyklus können ALU-Befehle (ADD, 
SUB, LDA, XOR, AND, ABS, ABA, LIM), Shift- und 
Analogoperationen nebeneinander ausgeführt werden. 
Rechenoperationen werden mit 25 Bit Genauigkeit in 
der internen Darstellung im Bereich von +1 bis -1 
abgearbeitet. Multiplikation und Division sind per Soft- 
ware durchzuführen. Für den Masseneinsatz ist eine 
ROM-Version mit 400 ns Zykluszeit verfügbar. 


2 Versuchsaufbau 


Als Demonstrationsmodell eines instabilen Systems 
eignet sich eine „schwebende Kugel“: Unter einem Elek- 


dem Baustein 2920 vor, die in der Lage ist, ein instabi- 
les System zu regeln: Ein Elektromagnet läßt im 
beschriebenen Anwendungsbeispiel eine Eisenkugel 
frei in der Luft schweben. 


tromagneten mit vertikaler magnetischer Achse soll im 
Abstand von etwa 12 mm eine Eisenkugel im Durchmes- 
ser von 25 mm frei schwebend aufgehängt werden, 
deren Position mit einer Lichtschranke erfaßt wird. Der 
Magnetstrom soll derart gesteuert werden, daß die 
Kugelunterseite den Lichtstrahl der Schranke tangiert. 

Die gestellte Aufgabe ist nur mit einer Regelung lös- 
bar, da sich, wie aus der Erfahrung bekannt ist, bei 
festem Erregerstrom kein stabiler Zustand einstellt. Die 
Kugel wird bei kleinen Auslenkungen aus der labilen 
Gleichgewichtslage entweder an den Magneten herange- 
zogen, oder sie fällt nach unten. Die Regelstrecke stellt 
ein instabiles System dar, da die Lageabhängigkeit der 
Hubkraft als Mitkopplung wirksam ist. 

Durch Vorschaltung eines PID-Reglers mit geeignetem 
dynamischem Verhalten und eines Stellgliedes wird die 
Regelstrecke zu einem Lageregelkreis ergänzt. Dabei 
wird dem Reglereingang die Abweichung vom Sollwert 
über die Lichtschranke zugeführt. Der Regler erzeugt 
daraus eine Korrekturgröße, die über ein Stellglied den 
Erregerstrom steuert. 
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3 Realisierung 


Das Demonstrationsmodell besteht aus folgenden 

Funktionsgruppen (Bild 1): 

- Lichtschranke mit Emitterfolger zur Impedanzanpas- 
sung 

— PID-Regler 

— Stromregler 

— Leistungsstufe mit Netzteil 

— Elektromagnet 


3.1 PID-Regler 


Im Signalflußdiagramm des durch einen 2920 reali- 
sierten Reglers (Bild 2) sind die Komponenten des PID- 
Reglers, nämlich Proportional-, Integral- und Differenti- 
alteil gezeigt. Sein Ausgang wird zum Grundwert 
addiert und nach Skalierung als Sollwert dem Stromreg- 
ler zugeführt. Der Grundwert ist eine eingefügte Kon- 
stante, die dem erforderlichen Strom für die Kugel- 
Sollposition entspricht. Die drei Reglerkomponenten 
erhalten als Eingangsgröße die Differenz aus Licht- 
schranken-Ausgangs-Spannung und Lichtschranken- 
spannungs-Sollwert. 

Die Leerlaufspannung der Lichtschranke (freier Licht- 
strahl) ist etwas höher als die Referenzspannung des 
2920 eingestellt. Nach der Digitalisierung erhält somit 
die die Lichtschrankenspannung darstellende Pro- 
gramm-Variable bei Leerlauf den Wert 1,0, entsprechend 
dem Maximalwert des Bereichs. 

Der Sollwert ist im Programm als Konstante mit dem 
Wert 0,5 definiert. Durch diese Wahl wird die Kugelun- 
terseite etwa in der Mitte des Meßlichtstrahls, dessen 
wirksamer Durchmesser rund 1,5 mm beträgt, positio- 
niert. 

Der PID-Regler wird 
beschrieben [2]: 


durch folgende Gleichung 


n 


T T, 
Un = Kr [x FT, na Xdv T pp” (Xan — Xdn- ) | 
K < 1 
= KrXan r T, ab 2 Xıv Tr Kfm (Xan Rote 1) 
De 1 
Kp Ki Kd (1) 
nV, 1,2... 


un  : Stellgröße 

Xin  : Regelabweichung 

T : Abtastperiode 

T„  : Nachstellzeit 

T,  : Vorhaltezeit 

Kp :Koeffizient Proportionalanteil 
Ki :Koeffizient Integralanteil 

Kd :Koeffizient Differentialanteil 


Die Koeffizienten Kp, Ki und Kd definieren die 
Sprungantwort des PID-Reglers und sind einfach und 
vor allem voneinander unabhängig zu programmieren. 
Hier zeigt sich ein großer Vorteil gegenüber analogen 


Lösungen, bei denen die Koeffizienten voneinander, je 
nach Schaltungsart mehr oder weniger, abhängig sind. 
In Bild 3 ist die Sprungantwort des realisierten PID- 
Reglers dargestellt. 


3.1.1 P-Anteil 


Der Proportionalanteil ist durch eine Konstantenmul- 
tiplikation festgelegt. Hierzu muß die Konstante (Koeffi- 
zient Kp) in eine Summe von Zweierpotenzen aufge- 
spaltet werden, um die Multiplikation durch Verschie- 
ben zu realisieren. 

Beispiel: 
P:=X x Kp;Kp = 0,039 = 2° + 2° 
;:X = Regelabweichung 


Programmierung in 2920-Assembler: 
LDAPABS Peie 2° 
ADD PXR7 ;„P:=P+ X x 2” 


3.1.2 I-Anteil 


Beim Integralanteil wird pro Abtastperiode auf die 
Variable „I“ (entspricht der Summe in Gleichung (1)) ein 
Wert addiert, der sich aus einer Konstantenmultiplika- 
tion mit der Regelabweichung „X“ ergibt. Die Konstante 
ist gleich dem Produkt aus Abtastzeitintervall und dem 
Koeffizienten Ki und wird nachfolgend als Kir be- 
zeichnet. 


Beispiel: 
l:=1+XxKir 


2920-Assembler: 
ADDIX,R9 ;I:=I+Xx 2 
ADB. LX.RII ST: = T# X < 2% 


; Kir = 0,00244 = 2° + 2°" 
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Schwebende Kugel: ein anschauliches Beispiel für ein instabiles 
System 


3.1.3 D-Anteil 


Für den Differentialanteil wird im allgemeinen die 
Differenz aus der letzten und vorletzten Regelabwei- 
chung gebildet und mit der Konstanten Kd- multipli- 
ziert. Die Konstante Kd- errechnet sich als Produkt aus 
dem Koeffizienten Kd und dem Kehrwert des Abtastzeit- 
intervalls. 

Da bei dieser Anwendung die Abtastperiode (57,5 us) 
sehr klein gegenüber der Systemreaktionszeit ist, wird 
die Differenz jeweils aus dem letzten und dem achtletz- 
ten Wert berechnet, um eine bessere Auflösung zu er- 
halten. 


Beispiel: 

D := (X, = Xn-8) x Kdr , Kd- = 30 
2920-Assembler: 

LDA %8,X7 ;X8:=X7 
LDA X7,X6 ;X7:=X6 
LDA X6,%X5 ;X6:=X5 
LDA X5,X4 ;X5 := X4 
LDA X4,X3 ;X4:=X3 
LDA X3.X2 :XI:=R2 
LDAR2.XI :X2:= X 
LDA X1,X = X 


RL N 
A/D-Konvertierungssequenz Lichtschrankenspannung 


LDA X,DAR ;X := LICHTSCHRANKENSPANNUNG 
SUBX,KP4 ;X:=X-05 


Beispiel: 
LDA SOLL,PID,R1 
ADD SOLL,PID,R3 


SUB SOLL,I_IST 
SUB SOLL,KP1,R7 
LIM M_ON,SOLL 


; SOLL := PID x 0,5 
‚SOLL := SOLL + PID x 0,125 


LDA D,X ; D := LETZTE REGELABWEICHUNG 
SUB,D,X8 ;D:=D-X8 


ADD D,D,L2 ;D:=Dx5 (L2 = SHIFT 2 links) 
ADD D,D,L1 ;D:=Dx3 (Li = SHIFT 1 links) 
LDAD.D;LI :D:=Dx2 


; VARIABLE „D“ ENTHALT D-ANTEIL 


w) 


3.2 Stromregler 


Sobald die Kugel von oben her den Lichtstrahl der 
Schranke unterbricht, wird der Ausgang des PID-Reglers 
gleich +1 gesetzt. Mit einer Skalierung wird der Varia- 
blen „SOLL“ der Wert „PID“ x 0,625, also 0,625 zuge- 
wiesen. 

Am Eingang IN2 des 2920 ist der Erregerstrom-Meßwi- 
derstand mit 0,1 Q angeschlossen. Ein maximal zulässi- 
ger Magnetstrom von 6,25 A erzeugt die Spannung 
0,625 V. 

Da die Referenzspannung des Signalprozessors 1 V 
beträgt, entspricht dem maximalen Magnetstrom nach 
Analog/Digital-Umsetzung der Wert 0,625. Er wird im 
Programm der Variablen „I_IST“ zugeordnet. 

Der Komparator schaltet über seinen Ausgang die 
Leistungsstufe ab, falls Ist- und Sollwert gleich sind. Mit 
Hilfe der Skalierung wird damit eine Strombegrenzung 
von 6,25 A erreicht. 

Die Komparatorfunktion läßt sich einfach mit einer 
Subtraktion realisieren. Eine maximale Verstärkung 
wird durch die Limes-Funktion des 2920 erreicht, dabei 
erhält die Zielvariable „M_ON“ den „Full-Scale“-Wert 
mit dem Vorzeichen des Quelloperanden. „M-ON“ 
kann also nur die Werte +1 oder —1 annehmen. 

Da der LIM-Befehl eine Differenz von 0,0 als positiv 
betrachtet und damit dem Zieloperanden den Wert +1 
zuweist, muß zum Differenzwert ein negativer Offset 
addiert werden, der kleiner als die Auflösung des A/D- 
Umsetzers ist. Damit wird verhindert, daß bei Gleichheit 
von Ist- und Sollwert der Magnetstrom eingeschaltet 
bleibt. Dies ist wichtig, falls die Stellgröße des PID- 
Reglers Null vorgibt. Ohne Korrektur kann der Erreger- 
strom nicht abgeschaltet werden. 


Programmierung in 2920-Assembler: 

Die Konstante 0,625 wird zerlegt in 0,5 und 0,125. Die 
Multiplikation mit 0,5 bzw. 0,125 ist mit einfachen 
Shiftoperationen durchzuführen. Hier ein Beispiel: 


Rı = SHIFT 1 rechts 
R3 = SHIFT 3 rechts 


; STROMKOMPARATOR. 
; NEGATIVER OFFSET FÜR LIM (0,000976563) 
; Limes Funktion 


‚Es folgt Ausgabesequenz für die Variable M_ON 
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3.3 Leistungsstufe 


Die Leistungsstufe (Bild 4) arbeitet als Schaltregler 
mit hohem Wirkungsgrad. Die Steuerspannung vom 
Signalprozessor an OUT3 (Variable M_ON) beträgt +1 V 
für Magnetstrom ein und —1 V für aus. 

Wird der Leistungstransistor abgeschaltet, bricht das 
Magnetfeld zusammen, der Selbstinduktionsstrom fließt 
über Freilaufdiode und Meßwiderstand. Der Kompara- 
tor im 2920 erkennt, daß der Magnetstrom abnimmt und 
schaltet den Magneten wieder an die Versorgungsspan- 
nung. Auf diese Weise wird der Schalttransistor perma- 


nent wechselweise angesteuert. Dem Magnetstrom ist 
nur eine geringe Welligkeit überlagert, die hauptsäch- 
lich von der Erregerwicklungsinduktivität abhängig ist. 
Die Schaltfrequenz ist durch die Abtastrate, bedingt 
durch die Taktfrequenz und die Programmlänge, ge- 
geben. 

Der mittlere Erregerstrom ist eine Funktion des Ver- 
hältnisses der Einschaltzeit zur Ausschaltzeit, der Ver- 
sorgungsspannung und des Magnetwiderstandes. 

Für eine möglichst einfache und zuverlässige Erreger- 
stromerfassung durch den 2920 muß der Meßwiderstand 
auf Massepotential liegen. Dies bedingt, daß der Schalt- 





7805 


Lichtschranke 










c1 , „100004 
H—I 
60V lin 


HJ 


ıD2 
33k 
Ts 


Ir’ 
1N4148 
D3 


330 
10V 

















EX 


6,4MHz ii 









+5V 
100 

0,68 

T 150 ‚68 
5 { -Z-V EI AD1 
Strommessun 
= OPS 693 ’ FESC 
750 BC238 | (OPTRON) 01 ” 
[] 220 I |39k ik I [15 


Bild 4. Gesamtschaltung des Regelkreises 
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transistor direkt an der Plusseite der Spannungsversor- 
gung angeschlossen sein muß. Für diese Schaltungsart 
ist normalerweise bei bipolaren Transistoren eine eigene 
Hilfsspannungsquelle erforderlich. 

Der verwendete VMOS-Leistungstransistor benötigt 
im statischen Betrieb keine Steuerleistung. Lediglich 
beim Ein- bzw. Ausschalten muß die Gatekapazität 
umgeladen werden. Für schnelle Schaltzeiten und 


damit hohen Wirkungsgrad ist deshalb eine niederoh- 
mige Gateansteuerung wichtig. 

Die Hilfsspannungsquelle ist mit dem Kondensator G, 
realisiert, der jeweils in der Sperrphase des Schalttransi- 
stors aus der Versorgungsspannung über Transistor T5 
nachgeladen wird. Mit der Z-Diode im Basiskreis von T5 
wird eine Begrenzung der Hilfsspannung erreicht. Um 
die Leistungsstufe einzuschalten, wird T2 durch T4 











1518-11 2924 ASSEMBLER 1.6 53 ’ IN! = LICHTSCHRANKE 
24 ; INZ = SPULENSTRON 
ASSENBLER INVOKED RY: 552926 KUGEL. ASM ER ’ 
58 ; DUT3 = ANSTEUERUNG SCHALTTRANSISTOR 
LINE LOC OBJECT SOURCE STATEMENT 7 sEJELT 
j sa 4 Bader uT3 

! $PAGELENGTHI72) DEBUG 391 BAaGER AUT3 

2 $TITLEI”SCHWERENDE KUGEL gesteuert mit "2920" #V1,38 68.04.83”) ba 2 BOGGER Dur3 

& ; 1 3 BAGGER ATF 

4 ; EITEETSTTTETTERTTTETTEETE TOTER Tee ee re ee ee en ee een 62 

3 ; * # 3 s ## KANAL 1 DIGITALISTEREN SLICHTSCHEANKE) #* 
6 ; * SEHWERENDE KUGEL # 64 

7 N N + 4 NAMNER in 

8 ; BEE 2222727727222 2222 22722 722222 2272 27222222222 2222222222273 6b 5 LGÖGEF Int 

9 ; 67 & IHABER IH 

18 ; it} E.KRESS B3 bB 7 1O0BER In 

1 ; 59 B 1GAGEF IH 

12 ; BESCHREIBUNG: 76 9 1804ER IN 

13 ; 71 18 IA@MEF IH 

14 ; UNTER EINEM ELEKTEOMAGNETEN SCHWERT EINE EISENKUGEL, 72 11 1OC6ER LDA DAR,KPR,TN! 

15 ; DEREN POSITION MIT EINER LICHTSCHRANKE ERFASST WIRD, 3 12 JARBEF Nor 

15 ; 74 13 5AGGER EYTS 

17 } DER SIGNALPROZESSOR "2920" REGELT DEN MAGNETSTROM 75 14 A282EF LDA EH,KFZ 

18 ; DERART, DASS DIE KUGEL DIE LIEHTSCHRANKE TANGIERT. 76 15 ANaBAl ADD GW,KPL,RE 

19 ; TT 16 TIORER [v7 
20 ; HIERZU 157 IM "2926" EIN PID-REGLER MIT NACHFOLGENDEN 7a 17 42848 SUR GW,KFI,RS 

a ; ZWEIPUNKT-REGLER REALISIERT, 79 12 AAADEF NOF 
22 ; Bu 19 CYTE 
23 ; DEM PID-REGLER WIRD DIE DIFFERENZ AUS LICHTSCHRANKEN- BI 26 Nor 

2 ; SOLLWERT /MITTENPOSITIEN? UND ISTWERT TEINGANG IN1) B2 21 4 hop 
25 H ZUSEFUEHRT, DER FEGLERAUSGANG WIRD MIT EINEM GRUND- N 2 SIABEF EHTS 

25 ; WERT ADDIERT, SKALIERT UND ALS STROMSOLLWERT DEM ZWEI- B4 23 00ER HOP 
27 ; PUNKT STROMREGLER GEGEBEN. 85 2 anaßEr NOP 

28 } DER STROMISTWERT WIRD AN EINEM MESSWIDWERSTAND ALS 8 25 A100EF eyTa 
29 ; SPANNUNG ARGENÜMMEN UND DEM EINGANG IN2 ZUGEFDEHRT, 87 26 A2A0FF LDA LSB,L57 

3 ; 38 27 4408ER LDA L57,L56 
H ; DER ZWEIFUNKT-REGLER VERGLEICHT SOLL- UND ISTWERT, a9 28 IDOAFF LDA 156,155, CV73 

32 ; STEIGT BER ISTWERT DEBER DEN SOLLWERT, 50 WIRD DER 94 29 ABIBEF LDA 155,154 
RN ; MAGNETSTROM MITTELS DER LEISTUNESSTUFE ARGESCHALTET, 2130 AALOFF LDA 154,153 

24 } BZW. WIEDER EINGESCHALTET WENN DER ISTWERT UNTER DEN 92 M 2IGGEF LyT2 
35 ’ SOLLWERT SINKT, 3 32 ZE1BEF LDA LER,LSZ 

3 ; DIE LEISTUNGSSTUFE ARBEITET IM SCHALTBETRIER UND WIRD 94 33 4436FF LDA LS2,L51 
7 ; YOM AUSGANG QUTS MIT DEM MAYIMALEN FOSITIVEN BZW. 95 234 I18EF eyri 

38 ; NESATIVEN PEGEL ANGESTEUERT, 9% 35 SBC2FF LDa LE_D,ERg 
37 ; 97 16 AIS0EF LDA LS, LEA,LYTA 

40 3 EINE GENAUE BESCHREIBUNG IST IM 38 

A ; ANWENDUNGSBERICHT 29240 "SCHWERENDE KUGEL" 7?  ** MITTELWERT LICHTSCHRANKENSFANNUNG #* 
2 ; ENTHALTEN, Lac 

43 N 222 222727722227 101 37 24621E LDA LS,DAR,RL,IN2 
44 ; 182 38 ZCAME ADD LS,LS_Y,RL,INZ 
45 } ELOCK FREOUENZ N 4 MHz 103 3% 227BEF LDA LS_Y,LS,IN2 

46 ; 194 

47 3 REFERENZSPANNUNE :; 1,0 V 105 40 DELBEF LDA 158,L5,1N2 

38 ; 14 

47 $ ARTASTPERIDDE 2» 92 + d,A2dus = 37, Qus 197 7 +# REGELARWEICHUNG #+ 
54 ; 108 

| 5 BENUTZTE EIN- UND AUS-GAENGE: 189 41 ZZ6RFR SUR LS _R,LS,INZ 

ER ; 118 
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vom Signalprozessor aus leitend gesteuert. Gleichzei- 
tig zieht T4 das Gatepotential von T3 über die Diode D4 
auf Masse (T3 sperrt). Transistor T2 schaltet die Hilfs- 
spannung an das Gate des Leistungstransistors T1, und 
dieser wird leitend. 

Wechselt die Ausgangsspannung des 2920 von +1 V 
nach -1 V, werden T4 und T2 gesperrt. Die Gatespan- 
nung von T3 ist nicht mehr nach Masse geklemmt. T3 ist 


leitend, die Ladung der Gatekapazität von T1 fließt über 
T3 nach Masse ab. Der Schalttransistor T1 sperrt. Das 
vollständige Programm zeigt Bild 5. 


4 Software-Entwicklung 


Die Software kann entweder sehr preiswert mit dem 
„2920 System Design Kit“ [3] oder mit einem Entwick- 





11 s #### KANSL 2 ISTROMWERT) DIEITALISIEREN #+#+ 
112 

113 42 ZO66ER SUR DAR,DAR,INZ 

114 

115 ; +2 D - REGLER #* 

116 


NT 43 2270FF 
118 44 205BFR 
119 
120 45 AB7ARD 
121 46 &878DD 
122 
123 
124 
125 47 347800 
126 48 447849 


LDA DIFF,LSO, IN? 
SUR DIFF,LER,INZ 5 KUGEL AR ==> SIEN=NEG 


ADD DIFF,DIFF,L2 
ADD DIFF,DIFF,LI,CYTS 5 DIFF := DIFF # 15 


** I - REBLER #* 


ADD INT,LS_D,R9 


ADD INT,LS_D,RIL 5 KUGEL AB ==> SIEN=POS 


127 

128 ’ +2 P - REGLER ++ 

129 

3a 49 75789E LDA FROF,LS_D,RS,CVT? 
151 50 447BD€ ADD PROP,LS_D,R7 

132 

153 y ## SUMME: P-I-D ++ 

134 


135 51 AR2IEF 
136 52 bB2IED 
13753 4829ER 
138 54 4829ER 
139 
148 
14 
142 55 SI8lrF 
143 56 A0BIFD 


LDA FID,INT 

ADD PID,PROP,CYTS 
SUR PID,DIFF 

SUB PID,DIFF 


++ STROMGRUNDWERT MIT FID ADDIEREN ++ 


LDA EWFID,GW,CVTS 
ADD GWPID,PID 


124 
145 » ++ STROMSOLLWERT (T-SOLL-NAY = 6,25) # 
136 


14757 44B90E 


RF LDA SOLL,EWPID,R! 
138 58 458940 


ADD SOLL,EWPID,R3,CYTA 5 SKALTERUNG 


149 

150 59 ARAGEF NOF 
15 60 AU0hER NOP 
32 61 MAGER EVT3 


153 52 A000EF  NOP 
158 63 A000EF  NOP 

155 44 DIM0EF  CYT2 

156 AS ABO0EF — NOP 

137 b6 A0W0EF NO 

138 67 ABER — DUT 

159 68 A000EF  NOP 

166 63 JOR0EF NDR 

161 TO MIAGEE — EVTO 5 STROMWERT IN "DAR" IST POSITIV 
162 TI AM2SFF LDA I_LIST,DAR 


153 
184 ; +2# KONTROLLAUSGARE PID +++ 
185 

166 AOCHEF  LDA DAR,FID 





Br 7 


168 73 






SAGE NOP 
ZuA0EF NOF 


159% 75 306GEF NOP 
170 7& AOU6EF BUTZ 
171 77 AGSGER aur2 
172 78 AMGEF QUTZ 


17379 AO0GEF duT2 

173 84 AARGEF puT2 

175 81 AbOGEF DUTZ 

176 82 AbBER aur2 

177. 83 AAGER dur2 

178 

179 y ++ STRONREGLER ++ 
188 

181 B4 4609ER 
182 85 438504 
183 

184 » +* SCHALTTRANSISTOR ANSTEUERUNG #* 
185 

186 86 A2C4E5 LIM DAR,SOLL 

187 87 4806EF Nor 

188 BB SAABER EOF 

129 87 Z00AEF NOF | 
190 90 BAGGER QuT3 

191 91 BAGGER DuT3 


DR 


SUR SOLL, I_IST 
SUB SOLL,KPI,R? 5 NEBATIVER OFFSET FÜER LIN 





192 END 

SYMBOL YALUE: 
Eu a 
L58 l 
157 2 
LSE 3 
L55 3 
154 5 
153 3 
L52 7 
L5l R 
L5_D 9 
15% 18 
LS u 
LS_V 12 
DIFF R 
INT 14 
FROP 15 
PIB 18 
SWPID 17 
SOLL 18 
LIST 19 
ASSEMBLY COMPLETE 

ERS = 4 

WERNINES = 8 

RAMSIZE = 26 

ROMIZE = 92 





Bild 5. Dieses Programm macht aus dem | 
Signalprozessor einen PID-Regler 
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lungssystem unter dem Betriebssystem „ISIS II“ erstellt 
werden. 

Das „Design Kit“ verfügt über einen Zeilenassembler. 
Die Programme können über eine Audiobuchse auf Kas- 
sette abgelegt bzw. von dort geladen werden. Das gleiche 
gilt für die vorhandene V.24-Schnittstelle in Verbindung 
mit einem Entwicklungssystem. Mit dem auf der Platine 
befindlichen Programmiersockel wird das EPROM des 
2920 programmiert. 

Mit dem „2920 Support Package“ ist unter ISIS Il eine 
komfortable Softwareentwicklung gegeben: Das Quell- 
programm wird mit dem „2920-Assembler“ [4] über- 
setzt. Danach besteht mit dem „2920-Simulator“ [5] die 
Möglichkeit, das Programm auszutesten. Hierfür können 
analoge Eingangsfunktionen (SIN, COS, EXP, LOG, 
usw.) definiert werden. Alle internen Register, Pro- 
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grammspeicher, Eingangs-, Ausgangswerte und andere 
Systemvariablen des 2920 können überprüft und modi- 
fiziert werden. Der interne Ablauf des Signalprozessors 
wird simuliert. „Trace“ und bedingte „Breakpoints“ 
sind möglich. 

Das ausgetestete und gegebenenfalls modifizierte 
Objektmodul wird dann mit dem UPP (Universal PROM 
Programmer) in den 2920 übertragen. 


5 Anmerkungen 


Bei der gezeigten Anwendung wird nur die Hälfte des 
verfügbaren Programmspeichers gebraucht und die volle 
Leistungsfähigkeit des Bausteins nicht genutzt. Die 
eigentliche Reglercodierung benötigt etwa ein Viertel 
des Programms. Die restlichen Programmteile sind für 
die Ein- und Ausgabesequenzen, zur Variableninitiali- 
sierung und zum Aufbau von Konstanten notwendig. 
Für aufwendigere Kaskadenregler oder für Eingangsgrö- 
Benfilterung wäre noch hinreichend Platz vorhanden. 
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Dipl.-Ing. Hans Volkers 


Schnelle Fouriertransformation 
mit TMS320 als Coprozessor 


Dieser Beitrag beschreibt den Einsatz des Signalpro- 
zessors TMS320 als frei programmierbaren Coprozes- 
sor im Verbund mit einem vorhandenen Host-Rechner. 
Dabei legt der Autor besonderen Wert auf die Darstel- 
lung der Rechnerkopplung und die Behandlung der 


1 TMS320 als Coprozessor 
1.1 Einführung 


Mit einer Verarbeitungsgeschwindigkeit von 5 Mio. 
Instruktionen/s sowie einem integrierten Hardware- 
Multiplizierer liegt der Datendurchsatz des Signalpro- 
zessors TMS320 bei FFT-Algorithmen mit 16-Bit-Fest- 
kommaarithmetik im Mittel um den Faktor 20 höher als 
bei einer CPU 8086 (8 MHz). Eine Kombination von 
8086 und 8087 würde nur bei Gleitkommaarithmetik 
entscheidende Geschwindigkeitsvorteile bringen. 

Da die zu verarbeitenden Daten in den meisten Fällen 
von einem Analog-/Digital-Umsetzer übernommen wer- 
den, stellt die 16-Bit-Festkommaarithmetik bei den 
genannten Algorithmen keine Einschränkung der 
Rechengenauigkeit dar. 

Der Einsatz des TMS 320 als Coprozessor an einem uP- 
System (im folgenden Host-uP genannt) ermöglicht eine 
sehr hohe Verarbeitungsgeschwindigkeit des Gesamtsy- 
stems. Hierzu wird der TMS 320 als frei programmierba- 
rer Coprozessor die Programmteile übernehmen, für die 
er optimiert ist. Zu den Anwendungsfällen zählen: 

— Transformationen 

— Korrelationen 

— Matrizenverarbeitung 

— Berechnung nichtlinearer Funktionen. 


1.2 Prinzip der Rechnerkopplung 





Das wesentliche Hardwareproblem des Multiprozes- 
sorkonzepts ist die Art der Rechnerkopplung. Sie muß 
die folgenden Möglichkeiten zur Verfügung stellen: 


spezifischen Probleme einer schnellen Fouriertrans- 
formation (FFT). Die Kopplung nimmt ein umschaltba- 
rer Speicher vor, der im realisierten Aufbau den 
Anschluß mehrerer TMS320 sowie parallele Aktivitä- 
ten aller Rechner zuläßt. 


— Programmierbarkeit der Coprozessoren 

Der Host-uP stellt mit seinen Ein-/Ausgabemöglichkei- 
ten wie Bildschirm, Massenspeicher und der verfügba- 
ren Software den koordinierenden und übergeordneten 
Systemteil dar. Er sollte deshalb je nach aktueller Pro- 
blemstellung die Programme für die Coprozessoren 
laden können. 


— Datenaustausch zwischen den Prozessoren 

In der Praxis genügt ein Austausch von Daten zwi- 
schen Host-uP und den einzelnen Coprozessoren (Bild 
1). Die Realisierung einer vollständigen konfliktfreien 





Coprozessor 1 


Bild 1. Struktur 
der Rechnerkopplung 





TMS 320 


Bild 2. 
Speicherkonzept des 
Signalprozessors 
TMS320 


(intern) 
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Vernetzung der Rechner ist zu aufwendig. Der Datenaus- 
tausch kann über die E/A-Ports oder den Programmspei- 
cher des TMS 320 erfolgen. Im folgenden wird die Kopp- 
lung über einen gemeinsamen Speicher für Host-uP und 
TMS320 beschrieben. 


Zum Verständnis des Datenaustausches muß auf das 
Prozessorkonzept des TMS320 eingegangen werden. Er 
besitzt eine modifizierte Harvard-Architektur, d.h. eine 
fast vollständige Trennung zwischen Programm- und 
Datenspeicher (Bild 2). Die Modifizierung erlaubt mit 
den „TABLE READ“- und „TABLE WRITE“-Befehlen 
(TBLR/TBLW) das Kopieren von Werten aus dem Pro- 
gramm- in den Datenspeicher bzw. umgekehrt. Diese 
Instruktionen arbeiten zweifach indiziert, die jeweiligen 
Zieladressen stehen im Akkumulator und in einem Regi- 
ster, die Ausführungszeit beträgt 600 ns. 


Adreßleitungen selektiert. Bei einem vollständig mit 
RAMs bestückten Host-uP ist eine Bankadressierung 
oder Deselektierung erforderlich. Im realisierten Fall ist 
der TMS 320 an ein System mit dem 16-Bit-uP TMS 9900 
gekoppelt. 

Die Kopplung an andere 16-Bit-Prozessoren ist pro- 
blemlos, da jeder uP die Möglichkeit zum Anschluß 
externer Speicher besitzt. Zum Anschluß an 8-Bit- 
Systeme wird die niederwertige Adreßleitung zur Selek- 
tion des jeweiligen Bytes verwendet. 


1.3 Betrieb des Coprozessors 


Ein Beispiel zeigt die Arbeitsweise des Coprozessors: 
Als Aufgabenstellung wird ein Programm für den 
TMS320 zugrunde gelegt, das vor dem Start alle Ein- 
gangswerte benötigt und nach 
Beendigung die Ausgangswer- 
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Typ 1420 
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Page Reset 


(Speicher- (Programm- 
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Kontrolle durch Host-pP 
Bild 3. Umschaltspeicher zur Rechnerkopplung 





Start te übergibt. Der Ablauf für den 

! TMS320 ist in Bild 4 be- 
schrieben. 

Für eine zu wiederholende 
Abarbeitung des Programms 
für den TMS 320 lädt der Host- 
uP einmalig den Programmco- 
de in beide Seiten des Um- 
schaltspeichers. Nach Laden 
der Eingangswerte und Verar- 
| beitung der Ausgangswerte (im 
| Wiederholungsfall}) schaltet 
| der Host-uP die Seitenzuord- 
nung um und setzt den Reset 
des TMS320 auf „1“ (Pro- 
grammstart). Mit der dem 
Host-uP jetzt zugewandten Sei- 
te des Umschaltspeichers wird 
| entsprechend verfahren. 
= Nach jedem Wechsel der 










Datentransfer 
in Daten-RAM 
(TBLR) 













Verarbeitung 






Datentransfer 
in Progr- RAM 
(TBLW) 







No Operation 





Unterbrechung 
durch Host-uP 


Bild 4. Typischer 
Programmablauf 





Zur Übertragung von Daten und Programm ist somit 
der Zugriff des Host-uP auf den externen Programmspei- 
cher des TMS 320 hinreichend. Die Forderung nach Pro- 
grammierbarkeit des Coprozessors ist damit automatisch 
gelöst. Eine mögliche Realisierung der Kopplung wäre 
der Aufbau eines Dual-Port-RAM für den Programm- 
speicher des TMS320. Dieses Konzept ist aufgrund der 
sehr kurzen Zugriffszeiten des TMS320 zu aufwendig. 

Der Verfasser realisierte deshalb eine Hardware mit 
umschaltbarem Speicher (Bild 3). Dieser Speicher 
besteht aus zwei 4-KX16-Bit-Blöcken, die umschaltbar 
jeweils einem der Rechner zugeordnet sind. Die Verwal- 
tung der Zuordnung übernimmt der Host-uP. Im ein- 
fachsten Fall werden Seitenzuordnung des Umschalt- 
speichers und Reset-Anschluß des TMS320 gesteuert. 


Der Umschaltspeicher stellt sich dem Host-uP als 
RAM mit 8 KByte dar. Er wird über die höherwertigen 
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Seitenzuordnung stehen also 

die Ergebnisse des letzten Pro- 
grammlaufes zur Verfügung, die aktuellen Daten werden 
gerade auf der zweiten Seite vom TMS320 verarbeitet 
und die Eingangswerte für den nächsten Programmlauf 
können geladen werden. 


Der Vorteil des Umschaltspeichers, der wie eine Art 
Pipeline wirkt, liegt in dem ungehinderten und gleich- 
zeitigen Arbeiten von Coprozessor (oder Coprozessoren) 
und dem Host-uP. 


2 FFT-Algorithmen mit dem TMS 320 
2.1 Grundlagen der FFT 
Die FFT ist ein redundanzverminderter Algorithmus 


der DFT (Diskrete Fourier Transformation). Für die kom- 
plexe Eingangswertefolge der Länge N lautet die DFT: 





Applikation 





N-1 
F(k)= )% x{n) - Wirk 
n=0 
mit kn = 0..N-1); = e!° u 


Unter der Vorraussetzung, dal N keine Primzahl ist, 
läßt sich die DFT in Teiltransformationen aufteilen. Für 
den Fall, daß N eine Potenz von 2 ist, läßt sich durch 
eine fortgesetzte Aufspaltung für das Beispiel N=8 die 
DFT durch den in Bild 5 gezeigten Signalflußgraphen 
darstellen. 

Ein Verfahren für die Berechnung der DFT nach Bild 5 
ist ein „decimation in time, radix 2“-FFT-Algorithmus, 
der für die DFT, statt ursprünglich N?, nunmehr ledig- 
lich N:-log;N komplexe Multiplikationen benötigt. Die 
Elementaroperation der „radix 2“ FFT besteht in der 
Ausführung einer sogenannten „Butterfly“ (s. Bild 5). 

Unter Ausnutzung der Symmetrie Wy“ * = -Wı" 
läßt sich die in Bild 6 gezeigte Vereinfachung schreiben. 
Zur Ausführung der Butterflyoperation nach Bild 6 sind 
eine komplexe Multiplikation und zwei komplexe Addi- 
tionen erforderlich, die innerhalb der FFT N/2:log, 
N mal auszuführen sind. 

Die Ordnung von Eingangs- zu Ausgangswerten ergibt 
sich bitrevers (der binär dargestellte Laufparameter muß 
von hinten gelesen werden). Für die folgerichtige 
Anordnung müssen die Eingangswerte umgeordnet wer- 
den. Es lassen sich Signalflußgraphen ohne diesen 
Nachteil angeben. Die bitreverse Anordnung ist verbun- 
den mit dem Vorteil der „In-Place“-Verarbeitung der 
Butterflyoperationen. Dabei lassen sich die Eingangs- 


von den Ausgangswerten überschreiben. Man benötigt 
den Speicher für die Transformationswerte nur einmal. 


2.2 Implementierung auf dem TMS 320 





Die oben beschriebene Butterflyoperation ist der 
Kernteil der FFT-Algorithmen. Diese Operation wird 
innerhalb der Transformation mehrfach ausgeführt. Der 
Programmcode für die Butterflyoperation nach Bild 7 
benötigt als Initialisierung die aktuellen Wurzelwerte in 
WR, WI sowie die Adressen ADUP, ADDW des ersten 
und zweiten Realteils der Eingangswerte. Die zugehöri- 
gen Imaginärteile stehen in Adresse+1. Das Programm 
für die Transformation besteht aus einem Rahmenpro- 
gramm (Bild 8) und dem Unterprogramm für die Butter- 
flyoperation. Das Rahmenprogramm errechnet die 
Adressen der jeweiligen Eingangswerte und ruft nach 
dem Laden der zugehörigen Wurzelwerte das Butterfly- 
Unterprogramm auf. 


2.3 Ausführungszeit und Programmcodelänge 


Normalerweise mißt man den Aufwand für die Trans- 
formationsberechnung anhand der Anzahl der notwen- 
digen Multiplikationen. Dieser Ansatz ist aufgrund der 
extrem kurzen Ausführungszeit für die Multiplikation 
nicht mehr zulässig. Die zur Transformation ohnehin 
noch erforderlichen Additionen und Adreßberechnun- 
gen tragen in erheblichem Maße zur Ausführungszeit 
bei. 




















Eingangswerte Ausgangswerte 
f (0) F(0) 
f(4) Fi) 
f (2) F(2 
Elementaroperation 
„Butterfly": 
f (6) FB 
ne 
fr) Fik 
-W 
(N/2 pro Stufe) 
f(5) FIS 
f (3) F(6 
rn) 0. FT 
-WO -W2 -W3 
Stufe 1 Stufe 2 Stufe 3 (log,N Stufen) 
Abk.: Wiw) = Wy" =cos 20 - jsin et 
Bild 5. Signalflußgraph für die FFT, Transformationslänge 
N=8, „Decimation in Time“ 





Bild 6. Elementaroperation vereinfacht („decimation in time”) 


„Butterfly“, vereinfacht 
(„Decimation in Time“) 


* UNTERPROGRAMM INPLACE-BUTTERFLY 


* 
* FARAMETER IM DATEN-RAM: 


WN 








* WR REALTEIL/WURZEL 
* WI IMAGINARTEIL/WURZEL . 
%* ADUP DATENRAMADRESSE REALTEIL/OBERER AST {RE1i) 
%* ADDW DATENRAMADRESSE REALTEIL/UNTERER AST (RE2) 
* 
BUTT LAR 1,ADUP ADRESSE OBERER AST 
LAR Ö.ADDW ADRESSE UNTERER AST 
LT *+ RE2 
MPY WR RE2 * WR 
PAC PRODUKT IN ACCU 
LT »= IM2 
MPY wı IM2 * wI 
SPAC {RE2 * WR - IM2 * WI) 
SACH ZWR,1 ZWISCHENERGEBNIS IN ZWR (%*2) 
MPY WR IM2 * WR 
PAC PRODUKT IN ACCU 
LT %l RE2 
MPY wıI REZ2 % WI 
APAC {RE2 * WI + IM2 %* WR) 
SACH ZwI,i ZWISCHENERGEBNIS IN ZWI (*2) 
LAC %,15,8 REI 
SUB ZWR,15 RE1i - ZWR 
SACH K+,0,1 00000... Heu ERGEBNIS RE2 (1/2) 
ADDH ZWR RE1i + ZWR 
SACH Kr eu ERGEBNIS REI (1/2) 
LAC %*%,15,89 IMmi 
SUB ZWI,15 IMi - ZwI 
SACH KB. 0000 run ERGEBNIS IM2 (1/2) 
ADDH Zwi IMi + ZWwI 
SACH K.B.B 000 run ERGEBNIS IMI t/2) 
RET RUECKSPRUNG 
Bild 7. Butterfly-Code für TMS320 
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Tabelle der FFT-Ausführungszeiten mit dem TMS320 
(20-MHz-Takt) 





8 63,6 30,4 245 direkt codiert 
16 158,0 92,8 645 direkt codiert 
32 383,6 254,4 1629 direkt codiert 
64 975,0 754,8 3844 direkt codiert 
64 1897 1575 243 Unterprogramm 





N: Transformationslänge (komplex) 


Die Programmierung mit einer Subroutine für die But- 
terflyoperation läßt sich mit getrennten Unterprogram- 
men für die Sonderfälle der Wurzelwerte 
(WI=0, WR=0) optimieren. In diesen beiden Fällen 
wird der Butterflycode erheblich kürzer. 

Die schnellsten Algorithmen erzeugt man jedoch 
durch Codierungen ohne Unterprogramme. In diesen 
Fällen werden die Butterflycodes in direkter Adressie- 
rung so oft hintereinander geschrieben wie es die Trans- 
formation verlangt. Diese Programmierung erzeugt aller- 
dings einen entsprechend langen Programmcode 
(Tabelle). Für Transformationslängen über N=64 wird 
ein mehrfacher Zwischentransfer von Teilergebnissen in 
den Programmspeicher des TMS 320 notwendig, da der 
Datenspeicher des TMS 320 lediglich 144 Worte groß ist. 
Diese Algorithmen werden sinnvollerweise auf kleinere 
Transformationslängen zurückgeführt und können mit 
mehreren TMS320 ausgeführt werden. 





r 
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| Bild 8. FFT-Rahmenprogramm 
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2.4 Multiprozessing mit mehreren TMS 320 





Eine Übersichtsskizze des Hardwareaufbaus zeigt Bild 
1. Das eigentliche Problem besteht in der Aufteilung der 
Gesamtaufgabe in mehrere unabhängige Teilaufgaben. 
Hierfür stellen FFT-Algorithmen ein gutes Beispiel dar. 
So läßt sich beispielsweise eine 1024-Punkte-FFT durch 
zweimalige Abarbeitung von jeweils 32 Transformatio- 
nen der Länge N=32 ausführen. Hierbei können die 
ersten sowie die zweiten 32 Transformationen gleichzei- 
tig, also auf mehreren TMS320, ausgeführt werden. 
Nach den ersten Transformationen muß der Host-uP 
Teilergebnisse zwischen den Coprozessoren umladen. 
Hierfür brauchen die TMS320 aufgrund des Umschalt- 
speichers nicht angehalten zu werden, sondern können 
auf ihrer Speicherseite neue Eingangsdaten bearbeiten. 
Für das Beispiel einer komplexen 1024-Punkte-FFT 
und einem System mit vier Prozessoren TMS320 erge- 
ben sich folgende Ausführungszeiten: 
— Zeit für die ersten Teiltransformationen: 2,07 ms 
— Zeit für die zweiten Teiltransformationen: 3,37 ms 
— Zeit für gesamten TBLR/TBLW-Datentransfer: 1,66 ms 
insgesamt: 7,10 ms 
Die Frage, wie viele TMS320 parallel arbeiten kön- 
nen, hängt von der Aufteilung der Transformation ab. 
Allerdings liegt man bereits bei vier TMS320 für das 
Problem der Fouriertransformation in der Nähe von 
leistungsfähigen Arrayprozessoren. Deshalb wird für die 
Frage nach der noch sinnvollen Anzahl von Coprozesso- 
ren neben wirtschaftlichen Gesichtspunkten auch die 
Leistungsfähigkeit des Host-uP entscheidend sein. 


3 Erfahrungen und Einschätzungen 


Das Konzept entstand im Rahmen des DFG-Projektes 
„Netzrückwirkungen“ am Institut für Elektrische Ener- 
gieversorgung der Universität Hannover. Der TMS320 
ist in beschriebener Weise an ein TMS9900-System 
gekoppelt. Der Coprozessor wird für eine mehrkanalige 
„Online“-Spektralanalyse eingesetzt und arbeitet seit 
etwa einem Jahr einwandfrei. 

Eine wesentliche Eigenschaft des beschriebenen Kon- 
zeptes ist die einfache und übersichtliche Art der Rech- 
nerkopplung. Diese Eigenschaft wird gerade bei der Pro- 
grammierung, und hier vor allen Dingen bei Multipro- 
zessorsystemen, wichtig. 
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Dr. Sönke Mehrgardt 


Universelles Prozessorsystem 
zur digitalen Signalverarbeitung 


Dieser Beitrag stellt ein Prozessorsystem vor, das für 
den universellen Einsatz in der Signalverarbeitung ent- 
wickelt wurde. Es besteht aus maximal vier eigenstän- 
digen Signalprozessoren des Typs TMS 320 (Texas 
Instruments), die über einen großen gemeinsamen 


1 Überlegungen beim Aufbau größerer Systeme 


Der TMS 320 ist als Einchipprozessor für kleinere 
Systeme besonders geeignet. Wegen der hohen Prozes- 
sorleistung und wegen des hohen erreichbaren Daten- 
durchsatzes ist dieser Baustein jedoch gerade auch für 
größere Systeme attraktiv. Dabei ergeben sich aber einige 
Schwierigkeiten aus der hohen Prozessorgeschwindig- 
keit (und der daraus folgenden geringen Zugriffszeit) 
sowie der speziellen Architektur. 

Bild 1 zeigt den Zeitablauf eines Eingabevorganges 
(Befehl „IN“). Wie zu ersehen ist, stehen zwischen der 
Ausgabe der Adresse (Portadresse) und dem geforderten 
Anliegen der Daten am Datenbus nur 100 ns zur Verfü- 
gung. Geht man weiter davon aus, daß die Adressen 
sowohl auf einer Prozessorplatine als auch bei dem 
angesprochenen Gerät durch je ein TTL-Gatter verzögert 
werden und daß auch die Daten rückwärts wieder durch 
zwei Gatter laufen müssen, so bleiben, grob geschätzt, 
nur noch etwa 60 ns an Zugriffszeit übrig. In dieser Zeit 
muß die Adresse decodiert und der entsprechende Bau- 
stein aktiviert werden. Ein direkter Zugriff auf inte- 
grierte Bausteine der üblichen Mikroprozessor-Baurei- 
hen scheidet damit aus, und es ist in diesem Fall eine 
geeignete Zwischenspeicherung der Daten vorzu- 
nehmen. 

Ein weiteres wesentliches Problem entsteht bei Ver- 
wendung des TMS 320, wenn eine größere Anzahl von 
Ein-/Ausgabegeräten angeschlossen wird (die Architek- 
tur erlaubt je acht Ein- und Ausgabeadressen). Verlan- 
gen nämlich diese Geräte zu unterschiedlichen Zeiten 
die Aufmerksamkeit des Prozessors, so ist nur schwer 
festzustellen, welches als nächstes zu bedienen ist. Für 
einfache Fälle stehen beim TMS 320 der Interruptein- 


Speicher (2M Wörter zu je 16 Bit) gekoppelt sind. Das 
System wird bereits für sehr unterschiedliche Aufga- 
ben eingesetzt. Dazu gehören die Realisierung von 
Array-Prozessoren und digitalen Filtern sowie die 
Sprachverarbeitung in Echtzeit. 


gang INT sowie ein testbarer Eingang BIO (testbar mit 
dem bedingten Sprung BIOZ, „Branch on IO-Status 
Zero“) zur Verfügung. Bei mehr als zwei Geräten sind 
jedoch sehr zeitraubende Abfrageverfahren anzuwen- 
den: Eine Abfrage benötigt 2...3 us — untragbar in schnel- 
len Echtzeitanwendungen! 

Zur Lösung dieser Probleme wurde der Befehlssatz 
des TMS 320 durch eine einfache Zusatzschaltung 
„ergänzt“. Sie ermöglicht es, mit nur einem BIOZ-Befehl 
(von 400 ns Dauer) gezielt eine von 128 Statusleitungen 
abzufragen. Gleichzeitig wird noch das logische Kom- 
plement dieses Befehles (also „BIOH“: Sprung, falls die 
Statusleitung auf logisch Eins liegt) verfügbar. 

Die Erweiterung ist möglich, weil der Befehlscode des 
Befehls BIOZ acht ungenutzte Bits enthält. Bild 2 zeigt 
den Code dieses Befehles: Der Befehl besteht aus zwei 
16-Bit-Worten. Das erste Wort enthält in den oberen acht 





200 ns * 


CLKOUT 


DE 





>50n | >0 


Daten- 
bus >0 
bus 


Bild 1. Zeitablauf bei einer Dateneingabe (Befehl 
„IN“). Zwischen der Ausgabe der Portadresse auf 
dem Adreßbus und dem geforderten Anliegen der 
Daten am Datenbus verbleiben 100 ns Zugriffs- 
zeit, wenn die Taktfrequenz 20 MHz ist 
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Steckbrief des Signalprozessors TMS 320 
— Befehlszykluszeit 200 ns 

— Wortlänge für Daten und Befehle 16 Bit 

— Interner Programmspeicher 1,5 K Wörter 

— Externer Programmspeicher bis zu 4 K Wörter 

— 16x16-Bit-Multiplizierer (200 ns) 

— 32-Bit-Rechenwerk und Akkumulator 

— Parallele 16-Bit-Ein-/Ausgabe mit bis zu 2,5 M Wörtern/s | 








Bits den eigentlichen Befehlscode, während im zweiten 
Wort die Sprungadresse steht. Die freien acht Bits des 
ersten Befehlswortes werden nun wie folgt definiert: 
Sieben Bits bilden die Statusadresse und ermöglichen 
damit die 128 verschiedenen Statusleitungen. Das achte 
Bit entscheidet, ob bei Eingangssignal high oder low 
gesprungen werden soll. 

Eine Nutzung der acht freien Bits wird bei externem 
Programmspeicher möglich. Bild 3 zeigt den Zeitablauf 
des Befehls „BIOZ“: Synchron zum Systemtakt 
CLKOUT bzw. zum Signal MEN werden die beiden 
Worte des Befehles eingelesen. Während des Zugriffes 
auf das zweite Befehlswort (die Sprungadresse) testet 
der TMS 320 den Eingang BIO. Je nach Signal an diesem 
Eingang wird dann mit dem nächsten Befehl fortgefah- 
ren (BIO = 1) oder zur angegebenen Adresse gesprungen 
(BIO = 0). Es ist nun offenbar leicht möglich, daß jedes 
am Datenbus angeschlossene Gerät kontinuierlich die 
Daten verfolgt und immer dann die BIO-Leitung betätigt, 
wenn es durch die letzten, unteren Datenbits der 
Befehlsworte adressiert ist. 

Das Prinzip wird deutlich anhand der einfachen, in 
Bild 4 gezeigten Schaltung: Die vier Auswahleingänge 
eines Decodierers (74150) sind direkt mit dem Datenbus 
verbunden. Wird nun ein „BIOZ“-Befehl gelesen, so 
entscheiden die letzten vier Bits des Befehles, welcher 





der 16 Eingänge selektiert wird. Der Ausgangspegel des 
Decodierers wird in einem D-Flipflop synchron zum 
Signale MEN gespeichert, um sicherzustellen, daß das 
selektierte Statussignal während der gesamten Test- 
phase (d.h. während des Zugriffes auf die Sprunga- 
dresse, siehe Bild 3) ordnungsgemäß am Eingang BIO 
anliegt. 

Zusätzlich wurde die Schaltung durch ein Exklusiv- 
ODER-Gatter ergänzt, das zwischen 74150 und Daten- 
eingang des Flipflops liegt. Abhängig vom Datenbit 7 
leitet dieses Gatter den Ausgang des Decodierers inver- 
tiert oder unverändert weiter. Einige Beispiele von 
Befehlscodes und zugehörigen Sprungbedingungen zur 
Illustration: 


Befehlscode Sprungbedingung 
(hexadezimal) 

F600 Leitung O0 low 
F680 Leitung 0 high 
F60F Leitung 15 low 
F68F Leitung 15 high 


Im Prozessorsystem enthalten eine Prozessorplatine 
sowie alle Ein- und Ausgabegeräte die nötige Logik, um 
die 128 adressierbaren Statusleitungen direkt testen zu 
können. Im Gegensatz zur Abfragemethode (2...3 us je 
Abfrage) läßt sich jetzt mit einem einzigen 400-ns-Befehl 
überprüfen, ob ein Gerät Daten benötigt, Daten zur Ver- 
fügung hat oder eine andere Art von Bedienung erfor- 
dert. Diese Verkürzung des Zeitaufwandes auf ein Fünf- 
tel trägt ganz wesentlich zur Zeitersparnis beim Ablauf 
größerer Programme bei. 


2 Die Prozessorplatine 


Das gesamte Prozessorsystem besteht aus einigen 
Europakarten, die über einen Systembus verbunden 
sind. Bis zu vier Prozessoren befinden sich jeweils auf 
einer gesonderten Prozessorplatine. Neben dem Prozes- 
sor selbst enthält die Platine 
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Bild 2. Code des TMS-320-Befehls „BIOZ“ 
(Branch on Input-Output Status Zero) 
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Bild 4. Einfache Schaltung zur Erweiterung der 
BIO-Leitung des TMS 320 auf 16 testbare Eingänge 
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Bild 3. Zeitablauf des Befehls „BIOZ“. Der Eingang 
BIO wird während der Eingabe des zweiten Be- 
fehlswortes (Sprungadresse) getestet 
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Bild 5. Vereinfachte Schaltung der Prozessorplatine. Der 
Hilfsprozessor enthält ein Monitorprogramm und kann auf 
den Befehlsspeicher sowie auf den Systembus zugreifen 











- einen 4-K- X 16-Bit-Programmspeicher mit 70 ns Zu- 
griffszeit, 
- die nötige Steuerlogik zur Kommunikation mit dem 

Systembus, 

- einen Hilfsprozessor (Intel 8749) mit einem Monitor- 
programm. 

Die Blockschaltung der Platine zeigt Bild 5. Im „nor- 
malen“ Betrieb greift der TMS 320 über den Datenbus 
auf die Befehle im Speicher zu. Wegen der hohen 
Geschwindigkeit sind dabei Speicherbausteine mit etwa 
70.ns Zugriffszeit nötig. Bei Eingabe- bzw. Ausgabebe- 
fehlen dient dieser Bus außerdem zum Transfer der 
Daten. Entsprechend der Übertragungsrichtung werden 
dabei die Treiberbausteine umgeschaltet, die den inter- 
nen Datenbus mit dem Systembus verbinden. 

Der zusätzliche Hilfsprozessor 8749 hat unterschiedli- 
che Aufgaben. Wird die Platine als Einplatinencomputer 
(und auch zur Programmentwicklung) eingesetzt, so ent- 
hält der Hilfsprozessor ein Monitorprogramm: Befehle 
an den Monitor können über ein Terminal eingegeben 
werden, das an die serielle Datenleitung (1200 Bd) ange- 
schlossen ist. Diese Befehle interpretiert das Monitor- 
programm und führt sie aus. Eventuelle Ausgaben wer- 
den zum Terminal zurückübertragen. 

Der Hilfsprozessor kann sowohl auf den Programm- 
speicher des TMS 320 als auch auf den Systembus 
zugreifen (er muß dazu allerdings kurzzeitig den TMS 
320 mit der Reset-Leitung anhalten). Im Monitorpro- 
gramm sind folgende Befehle enthalten: 

— Darstellen bzw. Ändern des Programmspeichers, der 
internen Register des TMS 320 und der Ports, 

— Anhalten des TMS 320 bzw. Starten eines Programms, 

— Setzen eines Unterbrechungspunktes zur Fehlersuche, 

— Transfer eines Programmes in den Programmspeicher 
(„Booten“). 


Besonderer Wert bei der Ausgestaltung des Monitor- 
programmes wurde darauf gelegt, daß neben dem übli- 
chen Eingabe- und Ausgabeformat (hexadezimal, oktal) 
auch die Zahlendarstellungen möglich sind, in denen 
sich bei Anwendungen der digitalen Signalverarbeitung 
„leichter denken“ läßt. Entsprechend sind alle Ein- und 
Ausgaben auch dezimal mit Rechtskomma- (ganzzahlig) 
bzw. der Linkskommadarstellung (als Dezimalbruch) er- 
laubt. 

Wird die Prozessorplatine stets mit dem gleichen Pro- 
gramm verwendet, so kann der Hilfsprozessor statt des 
Monitors die nötigen Daten enthalten, die er nach Ein- 
schalten des Gerätes in den Programmspeicher lädt. 


‚Danach startet er den TMS 320 an geeigneter Stelle. so 


daß} die Platine sofort einsatzbereit ist. In dieser Variante 
betreiben wir die Prozessorplatine in unserem System: 
Der Programmspeicher wird nach Einschalten mit 
einem kleinen Programm (dem „Urlader‘“) initiiert, mit 
dem der TMS 320 dann die restlichen Befehle über den 
Systembus in seinen Programmspeicher lädt. 

Die gesamte Hardware mit beiden Prozessoren, dem 
Programmspeicher, der Steuerlogik und den Treiber- 
bausteinen für den Systembus bzw. die serielle Datenlei- 
tung zum Terminal paßt auf eine Europakarte. Die aufge- 
baute Schaltung zeigt Bild 6. 


3 Ein- und Ausgabegeräte 


Das System wird primär zur Verarbeitung analoger 
Daten eingesetzt. Digitale Daten sind nur im Ausnahme- 
fall (zum Beispiel beim Einsatz als Array-Prozessor an 
einem Großrechner) verfügbar. Zur digitalen Verarbei- 
tung analoger Daten stehen deshalb 16-Bit-Digital-/Ana- 
log-Umsetzer und -Analog-/Digital-Umsetzer zur Verfü- 
gung. Sie sind, genau wie die Prozessorplatine, auf 
jeweils einer Europakarte verwirklicht. 

Beide Umsetzertypen sind mit FIFO-Speichern (16 x 
16 Bit) ausgerüstet. Diese Zwischenspeicher ermögli- 
chen es dem Programmierer, gelegentlich auch längere 
Zwischenrechnungen durchzuführen, ohne daß die 
streng zeitäquidistante Erzeugung und Abfrage von 
Abtastwerten unterbrochen wird. 


je 


AC1B-714A-RBP (9) 18 82 











Bild 6. Die Prozessorplatine ist in Europaformat ausgeführt 


119 





Applikation 





Zur Kopplung des Prozessorsystems mit anderen 
Geräten ist ferner ein paralleles Interface (16 Bit) vor- 
handen. Je nach Anwendung kann es konfiguriert wer- 
den für eine bidirektonale 16-Bit-Leitung oder für 
getrennte 16-Bit-Ausgabe- und -Eingabeleitungen. Eine 
entsprechende Steuerlogik synchronisiert dabei den 
Datenaustausch mit dem externen Gerät. Die Übertra- 
gungsgeschwindigkeit beträgt bis über 1 MWörter/s. 
Über dieses Interface ist das Prozessorsystem mit einem 
Großrechner verbunden, dem das System als intelligen- 
tes Ein- und Ausgabegerät dient und von dem es in 
speziellen Fällen als Array-Prozessor eingesetzt wird. 


4 Externer Speicher und Prozessorkopplung 


Der TMS 320 verfügt über einen internen Datenspei- 
cher von 144 Wörtern (zu je 16 Bit). Auf diesen Speicher 
kann mit den in 200 ns abgearbeiteten Befehlen des 
Bausteines direkt zugegriffen werden. Reicht er für eine 
Anwendung nicht mehr aus, so ist mit zwei speziellen 
Befehlen (TBLR, TBLW) ein externer Speicher von 
maximal 4K X 16 Bit ansprechbar. In vielen Fällen ist 
jedoch auch dieser Bereich noch zu klein, und es muß 
eine andere Lösung gewählt werden. 

Bei dem beschriebenen Prozessorsystem wurde eine 
Konfiguration gewählt, in der auf einen großen Spei- 
cherbereich (4 MByte) mehrere Prozessoren im Zeitmul- 
tiplex zugreifen können. Neben dem sehr großen Spei- 
cherbereich hat man dabei gleichzeitig den Vorteil, 
durch Kopplung einiger Prozessoren die Verarbeitungs- 
leistung des Systems vervielfachen zu können. Eine 
engere Kopplung der Prozessoren ist übrigens nur 
schwer realisierbar, da der TMS 320 über keine entspre- 
chenden Hardwareeigenschaften verfügt. 

Das Prinzip der Prozessorkopplung zeigt Bild 7: Die 
einzelnen Prozessoren sind mit einem getrennten Spei- 
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Bild 7. Blockschaltung des Prozessorsystems: 
Die einzelnen Prozessoren sind über Speicher- 
Controller mit einem bis zu 4 MByte großen 
Speicher verbunden 
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cherbus über Controller verbunden. Diese Controller 
sorgen für die Anpassung der verschiedenen Zugriffsge- 
schwindigkeiten auf dem Systembus (60 ns) und dem 
Speicherbus (300 ns), und sie müssen im Falle eines 
Zugriffskonfliktes (gleichzeitiger Speicherzugriff mehre- 
rer Prozessoren) durch Prioritätsentscheidungen für die 
richtige Abarbeitung des Datentransfers sorgen. 

Bild 8 zeigt die Blockschaltung der Speicher-Control- 
ler. Die Speicherplatinen werden über eine 21 Bit breite 
Adresse selektiert. Die 16 niederwertigen Bits der 
Adresse werden von einem bidirektionalen Zähler gelie- 
fert. Dieser Zähler kann vom TMS 320 auf vorgegebene 
Adressen gesetzt werden, auch ist es möglich, seinen 
Inhalt wieder zu lesen. Die oberen fünf Adressenbits 
speichert ein Steuerregister, in das der TMS 320 eben- 
falls direkt schreiben kann. 

Der Ablauf eines Lesezugriffs ist nun wie folgt: Zuerst 
wird die Adresse vom TMS 320 ausgegeben. Dadurch 
wird ein Speicherzugriff initiiert, indem der Controller 
versucht, so schnell wie möglich die gewünschten Daten 
in seinem Datenspeicher abzulegen. Dort stehen 
sie zur Verfügung, um mit einem Eingabebefehl des 
TMS 320 in den Prozessor eingelesen zu werden. Die 
Zugriffszeit des Speichers beträgt zur Zeit (bei Verwen- 
dung dynamischer RAMs) 300 ns. Sie kann bei gleich- 
zeitigem Zugriff mehrerer Prozessoren oder durch nötige 
Auffrischzyklen entsprechend steigen. Der Speicherbus 
und die Controller sind jedoch so ausgelegt, daß bei 
Mischbestückung mit Speichern unterschiedlicher 
Geschwindigkeit stets mit dem jeweils maximalen 
Tempo gearbeitet werden kann (dies wird, wie üblich, 
durch eine von den Speicherplatinen bediente „Wait“- 
Leitung erreicht). Die minimal erreichbare Zugriffszeit 
beträgt dann 100 ns, sie ist durch verschiedene Verzöge- 
rungen der gesamten Steuerlogik bedingt. 

Bei einem Schreibzugriff werden die Ausgabedaten 
des TMS 320 erst im Controller zwischengespeichert 
und dann, so bald wie möglich, über den Speicherbus 
zur entsprechenden Einheit transferiert. 

Die sequentielle Abarbeitung größerer Datenbereiche 
wird vom Controller zusätzlich unterstützt: Es ist mög- 
lich, bei Schreib- und/oder Lesezugriffen die niederwer- 
tigen 16 Bit der Adresse automatisch zu inkrementieren 
oder zu dekrementieren. Zwischen aufeinanderfolgen- 
den Speicherzugriffen braucht dann nicht jeweils erst 
die neue Adresse berechnet und ausgegeben zu werden, 
sondern es reicht dazu ein einziger „IN“- bzw. „OUT“- 
Befehl von 400 ns Dauer aus. Entsprechend läßt sich ein 
Speicherbereich mit der vollen Geschwindigkeit des 
TMS 320 von 2,5 M Wörtern/s einlesen bzw. be- 
schreiben. 

Zur weiteren Beschleunigung der Signalverarbeitung 
enthält der Controller eine Logik, mit der das Erreichen 
eines Speicherbereichendes leicht abzufragen ist. Dazu 
kann mit dem „BIOZ“-Befehl getestet werden, ob die im 
16-Bit-Zähler gerade gespeicherte Zahl Vielfaches einer 
gewünschten Zweierpotenz ist, d. h., ob eine gerade 
Zahl, ein Vielfaches von Vier oder Acht usw., vorliegt. 
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Bild 8. Blockschaltung eines Speicher- 
Controllers. Die 21-Bit-Adresse stellen ein 
bidirektionaler Zähler (16 Bit) und ein 
Steuerregister (5 Bit) zur Verfügung. Zur 
Anpassung der verschiedenen Busge- 
schwindigkeiten werden in beiden Über- 
tragungsrichtungen die Daten zwischen- 
gespeichert. Eine Steuer- und eine Priori- 
tätslogik sorgen für die Vermeidung von 
Buskonflikten bei simultanem Zugriff 
mehrerer Prozessoren 
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Damit läßt sich jeder 64 K x 16 Bit große Speicherbe- 
reich in beliebige Teilblöcke unterteilen, deren Grenzen 
ohne zusätzliche Softwareabfragen leicht erkennbar 
sind. 


5 Das Gesamtsystem 


Alle Baugruppen sind auf Europakarten realisiert, die 
auf einer Busplatine zur gewünschten Konstellation 
zusammengestellt werden können. Die maximale Aus- 
baustufe kann vier Prozessoren mit jeweils zahlreichen 
Peripheriegeräten umfassen, die auf einen gemeinsamen 
Speicher von 4 MByte zugreifen. Mit diesem System 
steht eine erhebliche Rechen- und Speicherkapazität zur 
Verfügung, mit der sich auch aufwendige Probleme digi- 
taler Signalverarbeitung in Echtzeit lösen lassen. 

Realisiert ist zur Zeit eine etwas kleinere Konfigura- 
tion mit zwei Prozessoren. Prozessor A bedient je zwei 
D/A- und A/D-Umsetzer sowie ein paralleles Interface 
zum Anschluß an einen Großrechner. Die Verbindung 
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zum insgesamt 256 K X 16 Bit großen Speicher stellt ein 
Speicher-Controller her. Diese Hälfte des Gesamtsy- 
stems arbeitet die Eingaben und Ausgaben ab und ver- 
waltet zeitkritische Teile des jeweiligen Problems. 

Prozessor B verfügt nur über die Kopplung mit dem 
Speicher. Er übernimmt rechenintensive Arbeiten und 
erhält nötige Daten über den Speicher von Prozessor A. 
Auf dem gleichen Weg liefert er die Rechenergebnisse 
zurück. 

Zur Signalerzeugung für Meßzwecke reicht oft ein 
Prozessor schon aus. Ein Beispiel: Bei einer Abtastrate 
von 20 kHz kann Prozessor A acht Sinusschwingungen 
verschiedener Frequenz, Amplitude und Phase in Echt- 
zeit berechnen und geeignet über die zwei D/A-Umset- 
zer ausgeben. Es ist damit ein zumindest für wissen- 
schaftliche Zwecke sehr interessanter Weg der Erzeu- 
gung komplexer Klänge und Geräusche möglich. 

Bei Anwendungen mit digitalen Filtern läßt sich der 
spezielle Befehlssatz des Prozessors besonders gut nut- 
zen. Bei einer Abtastrate von 40 kHz (sehr gute HiFi- 
Qualität) lassen sich mit einem Prozessor noch Filter mit 
60 Koeffizienten in Echtzeit realisieren. Damit lassen 
sich fast alle praktisch interessanten Übertragungsfunk- 
tionen verwirklichen. 

Ebenfalls mit nur einem Prozessor lassen sich Voco- 
der programmieren, die ausgezeichnete Sprachqualität 
liefern. So war es z.B. möglich, ein für Forschungs- 
zwecke entwickeltes analoges Gerät innerhalb kurzer 
Zeit durch ein digitales Äquivalent (das sogar anschluß- 
kompatibel war und die gleichen Steuersignale verarbei- 
tete) mit dem TMS-320-System zu ersetzen. 
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Vocoder mit Signalprozessor 


LPC-Vocoder finden wegen der Fähigkeit, Sprache mit 
einer geringen Bitrate zu codieren, in letzter Zeit gro- 
Bes Interesse. In der Vergangenheit war die Verwen- 
dungsmöglichkeit von LPC-Vocodern aufgrund hoher 


Ein weiteres Hindernis waren bisher bei der Anwen- 
dung die ziemlich komplizierten und zeitaufwendigen 
Algorithmen, die erforderlich sind für Echtzeit-LPC- 
Analyse und -LPC-Synthese. Dieses zweite Problem ist 
nun durch die Entwicklung eines Satzes von drei vor- 
programmierten Chips gelöst, der die rechnerisch auf- 
wendigen Teile eines LPC-Vocoder-Systems, insbeson- 
dere der LPC-Analyse, der Pitchdetektion (Stimmlageer- 
kennung) und der LPC-Synthese ausführt. Bei den Chips 
handelt es sich um EPROM-Versionen des Signalprozes- 
sors uPD7720 von NEC. Die Firmware für die Signalver- 
arbeitung wurde von Watchdog Computer Assistance 
AB und Linteko Elektronik AB, Täby, Schweden, ent- 
wickelt. 
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Bild 1. Typisches Simplex-Vocodersystem. Ein Duplexsystem 
erfordert einen zweiten identischen Kanal 
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Bild 2. Die Analyse nach dem LPC-Verfahren unterteilt man in 
eine Vordergrundroutine (einmal pro Abtastwert) und eine Hin- 
tergrundroutine (einmal pro Rahmenperiode) 
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1. Teil 


Kosten und umfangreicher Hardware begrenzt. Dieses 
Problem wurde mit Hilfe der schnellen digitalen 
Signalprozessoren, die seit einiger Zeit auf dem Markt 
sind, gelöst. 


1 Typisches LPC-Vocoder-System 


Bild 1 zeigt die Blockschaltung eines typischen Sim- 
plex-LPC-Vocoders. Ein Duplex-System erfordert einen 
zusätzlichen Kanal in umgekehrter Richtung. Der Sen- 
der nimmt das Schallsignal über ein Mikrofon auf. 
Wenn das Mikrofon nicht in einer sehr stillen Umge- 
bung benutzt wird, so sollte es in der Lage sein, Hinter- 
grundgeräusche zu unterdrücken. Das Nf-Signal läuft 
durch eine analoge Zwischenstufe, die aus einem Vor- 
verstärker, Verstärkersteuerung und einem Eingangstief- 
paß (Anti-Aliasing-Filter) besteht. 

Die A/D-Umsetzung erfolgt mit einer Abtastfrequenz 
von 8 kHz. Bei Linearcodierung beträgt die Auflösung 
12 Bit oder 8 Bit im logarithmisch komprimierten Code 
(A-Law oder u-Law). Das Signal läuft dann in den LPC- 
Analysator und den Pitchdetektor. Einmal pro Rahmen- 
periode berechnet der Vocoder eine neue Pitchschät- 
zung (Stimmlagenschätzung) und einen neuen Satz von 
LPC-Koeffizienten. Diese Parameter werden quantifi- 
ziert und codiert und zusammen mit den notwendigen 
Synchronisationszeichen auf einem seriellen Kanal zum 
Empfänger geschickt. Die Übertragungsrate beträgt dabei 
2,4 kBit/s. 

Der Empfänger synchronisiert sich mit den empfange- 
nen seriellen Daten. Die empfangenen Parameter wer- 
den aufgeschlüsselt sowie decodiert und vom LPC-Syn- 
thesizer benutzt, um eine Approximation des Sender- 
Eingangssignals zu erzeugen. Nachdem es einen D/A- 
Umsetzer und ein Tiefpaßfilter durchlaufen hat, wird 
das nun rekonstruierte analoge Signal in Schall verwan- 


delt. 


2 LPC-Analyse-Chip 


Die LPC-Analyse ist unterteilt in eine Vordergrund- 
routine, die einmal pro Abtastperiode ausgeführt wird, 
und eine Hintergrundroutine, die einmal in jedem 
„Frame“ (Rahmen) aufgerufen wird. 
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Die erste Routine umfaßt Preemphase, Fensterabta- 
stung („Windowing‘“), Skalierung und Auto-Korrela- 
tionsrechnungen. Die Hintergrundroutine setzt sich 
zusammen aus einer auf Wunsch aufrufbaren Spek- 
trumsglättungsroutine und einer LeRoux-Gueguen- 
Rekursion [1], um die Prädiktorkoeffizienten und die 
residuale Fehlerenergie zu berechnen (Bild 2). 

Alle abgetasteten Daten, die entweder aus logarith- 
misch komprimierten 8-Bit-Worten oder linearen 16-Bit- 
Worten bestehen, gelangen zuerst in den Preemphase- 
block. Die Energie in einem Sprachsignal konzentriert 
sich auf den Frequenzbereich unter 500 Hz (Bild 3). Der 
Sinn der Preemphase ist die Glättung des Eingangsspek- 
trums durch Anhebung der höheren Frequenzanteile im 
Spektrum. Ein glatteres Spektrum erhöht die Genauig- 
keit der Prädiktorkoeffizienten, wenn die Berechnung 
mit beschränkter Wortlänge ausgeführt wird. 

Der Preemphaseblock besteht aus einem einstufigen 
digitalen Hochpaßfilter. Nach der Multiplikation mit 
einer Konstanten wird der letzte Abtastwert von jedem 
digitalisierten Abtastwert subtrahiert. Die Konstante, die 
die Eckfrequenz des Filters steuert, wird vom Steuerpro- 
zessor bei der Initialisierung eingeladen. 

Nach der Preemphase werden die Sprachdaten durch 
ein Hamming-Fenster geschickt, mit einem abwertenden 
Skalierungsfaktor multipliziert und der Auto-Korrela- 
tionsroutine zugeführt. Der Wert des Skalierungsfaktors 
hängt von dem Rahmen ab und muß so gewählt werden, 
daß der Korrelator nicht überläuft. Um P Prädiktorkoef- 
fizienten zu berechnen, ist es notwendig, Zugriff zu den 
Auto-Korrelationskoeffizienten R (O)...R(P) zu haben. 
Der Analyse-Chip rechnet mit P= 12. R(n) ist definiert 
als Summe von R(i)*R(i-n) für alle Abtastwerte in einem 
Frame. Um die Genauigkeit zu erhalten, werden die 
Zwischensummen in Wortlängen von 32 Bit gespei- 
chert. 

Am Ende eines Analyserahmens wird die 
Hintergrundroutine gestartet. Sie berechnet die LPC- 
Koeffizienten und die residuale Energie aus den Auto- 
Korrelationskoeffizienten, die von der Vordergrundrou- 
tine erzeugt wurden. Zuerst werden die Auto-Korrela- 
tionskoeffizienten normiert, auf 16 Bit gerundet und 
dann an eine Routine weitergereicht, die die LeRoux- 
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Bild 3. Spektralanalyse von Vokalen und Konsonanten, 
gesprochen von einer Frauen- (b) und Männerstimme (a). 
Die Grundfrequenz der Männerstimme beträgt ca. 140 Hz, die 
der Frauenstimme ca. 280 Hz. Der von den Stimmbändern 
erzeugte Ton ist sehr obertonreich, die unterschiedliche 
Amplitudenverteilung bei den verschiedenen Vokalen ent- 
steht durch Resonanzen, sogenannte „Formanten“, die beim 
Sprechen durch Bildung von Resonanzräumen erzeugt wer- 
den. Diese „Filterung“ ist bei stimmlosen Zischlauten ebenso 
wichtig, die Unterschiede im „Rauschspektrum“ bei den Lau- 
ten „f“ und „sch“ machen dies deutlich. 

Bei der Untersuchung der Formantbereiche der Vokale zeigt 
sich, daß sie durch Resonanzen im Mund- und Rachenraum 
bestimmte Kolorierungen erhalten, d. h. durch die Form und 
Größe der Resonanzräume werden bestimmte Obertonberei- 
che der von den Stimmbändern erzeugten Klänge in für jeden 
Vokal typischer Weise betont oder gedämpft. Das ist der 
Grund, daß durch Veränderung des Resonanzraumes aus 
den jeweils gleichen Klängen der Stimmbänder die verschie- 
denen Vokale entstehen [9]. | 











Gueguen-Rekursion ausführt. Sie erzeugt die Prädiktor- 
Koeffizienten und die residuale Energie, die schon für 
die vorausgegangene Normierung korrigiert wurden. 
Dies sind die Ausgangsparameter für den Steuerprozes- 
sor. Um möglichst flexibel zu bleiben, führt der Analyse- 
chip keine Parametercodierung durch. 








Geschichte des Vocoders 


Im Jahre 1790 gelang es erstmals, ein Gerät zu entwickeln, 
das man heute als Sprachsynthesizer bezeichnen würde. 
Angetrieben durch Blasebalg und Luft ermöglichte es dieses 
Gerät, „synthetische“ Sprache zu erzeugen. Es dauerte aller- 
dings mehr als ein Jahrhundert, bis im Jahre 1900 eine 
ähnliche, jedoch durch Elektrizität betriebene, Konstruktion 
entstehen konnte. Dieses Exemplar sollte die Basis für die 
Entwicklungsarbeit Homer Dudleys sein, der im Jahre 1936 
in den Bell Laboratories, USA, seinen Vocoder schuf. An dem 
technischen Konzept dieses „Voice Coders“ änderte sich bis 
zur Gegenwart nichts mehr. 








Natürlich läßt heute der fortgeschrittene Entwicklungsstand 
der gesamten Elektronik Integrationsdichten zu, die zum 
damaligen Zeitpunkt unbekannt waren. Das Grundkonzept 
des „Kanalvocoding“ aber existierte schon damals. 

Analoge Vocoder lassen sich mittlerweile durch digitale 
Signalverarbeitung ersetzen. Bei gleicher Bit-Rate (2,4 kBit/ 
s), aber mit erheblich niedrigerem rechnerischen Aufwand, 
empfiehlt sich der LPC-Vocoder. Neuere Algorithmen wie 
„RELP“ (Residual Exitation Linear Prediction [6]) erlauben 
bessere Sprachqualität, allerdings bei höheren Ubertragungs- 
raten (9,6 kBit/s). 
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Berechnung 


Bild 4. Der Stimmla- 
gendetektor (Pitchde- 
tektor) verfügt über 
sechs Schätzstufen 





sechs individuelle 
Pitch-Schätzungen 











Als Option kann zusätzlich eine spektrale Glättung 
(„Spectral Smoothing Technique — SST‘“) angewendet 
werden. Die SST erweitert geringfügig die Bandbreite 
der Formanten (siehe Kasten) dadurch, daß die Auto- 
Korrelationskoeffizienten vor der LeRoux-Gueguen- 
Rekursion durch ein Fenster geschickt werden. Bei 
Sprechern mit hohen Stimmlagen („High Pitched 
Voice“), bei denen die Unterschätzung der Formanten- 
bandbreite oft ein Problem darstellt, ist der Einsatz der 
SST von besonderem Vorteil. 


3 Chip für die Pitchdetektion 


In jedem Analyserahmen berechnet der Pitchdetektor 
(Bild 4) eine Schätzung für die Pitchperiode. Er berech- 
net ebenfalls einige Hilfsparameter, um die Entschei- 
dung, ob der Laut stimmhaft oder stimmlos ist, zu 
erleichtern. Für die Pitchdetektion wird ein modifizier- 
ter Gold-Algorithmus [3] verwendet. Wie bei der LPC- 
Analyse teilen sich die Berechnungen in eine „einmal 
pro Abtastung“-Vordergrundroutine und eine „einmal 
pro Frame“-Hintergrundroutine auf. 

Zuerst werden die Abtastwerte durch ein Tiefpaßfilter 
geschickt. Der Steuerprozessor übergibt beim Start die 
Filter-Koeffizienten. Nach dem Filtern gelangen die 
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Abtastwerte an sechs parallele Pitch-Periodenschätzer, 
die eine 6x6-Matrix von Pitchschätzungen erzeugen. Am 
Ende des Analyserahmens ist die letzte Schätzung von 
jedem Detektor ein Kandidat für die letzte Pitchschät- 
zung. Jeder der sechs Werte wird mit den anderen Wer- 
ten in der 6x6-Matrix verglichen. Jedesmal, wenn die 
Differenz unterhalb einer bestimmten Schwelle liegt, 
wird die Punktezahl erhöht. Der Wert bekommt einen 
zusätzlichen Bonus, wenn er in den erwarteten Sprach- 
lagenbereich, basierend auf vorangegangenen Schätzun- 
gen, fällt. Der erfolgreichste „Kandidat“ für die Pitchpe- 
riode und seine Punktezahl sind der Ausgang für den 
Steuerprozessor. 

Der einzelne Faktor, der die Qualität der reproduzier- 
ten Sprache am stärksten beeinflußt, ist die Entschei- 
dung für stimmhaften/stimmlosen Laut. Diese wichtige 
Entscheidung wird am besten dem Steuerprozessor 
überlassen, dem eine größere Menge von Entscheidungs- 
parametern zur Verfügung stehen kann [4]. 

Um die Entscheidung zu erleichtern, berechnet der 
Pitchdetektor-Baustein ebenfalls die Anzahl der Null- 
durchgänge und den ersten Reflexionskoeffizienten, 
basierend auf den Daten ohne Preemphase, und stellt 
dies dem Steuerprozessor zur Verfügung. 

(Fortsetzung folgt) 








Bis in den letzten Jahren fanden Voco- 
der hauptsächlich Anwendung im Be- 
reich der Nachrichtentechnik, z. B. zur 
Verschlüsselung von Informationen im 
militärischen Bereich. Weil sie sehr 
teuer waren, blieb die Zahl der verwen- 
deten Geräte lange Zeit begrenzt. Auf- 





Einchip-Signalprozessoren wie auch 
wegen Erweiterung des Angebotes an 
Modems und digitalen Netzwerken 
wurden die Voraussetzungen für die 
Einführung von Vocodern auch in zivile 
Applikationen geschaffen. 





Anwendungen von Vocodersystemen 





e P we digitale digitale 
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Vocoder mit Signalprozessor 


Der erste Teil dieses Beitrages zeigt den Aufbau eines 
Vocoder-Systems, das in LPC-Technik arbeitet. Mit 
Hilfe von Signalprozessoren können die für dieses 
Verfahren notwendigen Funktionen ausgeführt wer- 
den. Das Schaltungskonzept erläutert der abschlie- 
Bende zweite Teil. 


4 LPC-Synthese-Chip 


Der Synthese-Chip besteht aus einem Erregergenerator 
mit zwei Signalquellen, einem Lattice-Filter mit wählba- 
rer Länge (maximale Länge = 12) und einer Deemphase- 
Stufe (Bild 5). In jedem Rahmen empfängt der Synthesi- 
zer eine Energieschätzung, eine Stimmlagen-Entschei- 
dung (stimmhaft/stimmlos) und einen Satz von Prädik- 
tor-Koeffizienten vom Steuerprozessor. 

In einem stimmlosen Rahmen wird das Lattice-Filter 
von Pseudo-Zufallsrauschen erregt, während in einem 
stimmhaften Rahmen eine Impulsfolge mit Mittelwert 
Null benutzt wird (Bild 6). Die Periode der Impulsfolge 
entspricht der der geschätzten Stimmlage, und die 
Amplitude basiert auf einer linearen Interpolation von 
Energieschätzungen von vergangenen sowie gegenwärti- 
gen Rahmen. Die Amplitude wird ebenfalls durch die 
Stimmlage beeinflußt. Mit einer zunehmenden Zahl von 
Impulsen je Rahmen muß die Energie jedes Impulses 
reduziert werden, um die gesamte Eingangsenergie kon- 
stant zu halten. Stimmlage-, Energie- und LPC-Koeffi- 
zienten werden in jeder Pitchperiode interpoliert und 


2. Teil 


aktualisiert. Um starke Wechsel des Eingangssignals zu 
vermeiden, wird zwischen zwei Frames mit verschiede- 
ner Erregungsquelle oder wenn ein Rahmen ohne Laut 
ist, nicht interpoliert. 

Durch Interpolation der LPC-Koeffizienten erreicht 
man einen allmählichen Übergang vom Spektrum eines 
Rahmens zum Spektrum des nächsten Rahmens. Wenn 
der Unterschied zwischen zwei Sätzen von Prädiktorko- 
effizienten gering ist, arbeitet die lineare Interpolation 
gut. Wenn jedoch der Unterschied groß ist, dann produ- 
zieren die interpolierten Koeffizienten nicht unbedingt 
ein Spektrum, das den Mittelwert des Eingangsspek- 
trums darstellt. Um die Erzeugung fehlerhafter Spektren 
zu vermeiden, darf keine Interpolation stattfinden, 
wenn abrupte Wechsel in den LPC-Koeffizienten auf- 
treten. 

Auf das Lattice-Filter folgt eine Deemphase-Stufe, die 
die Preemphase im LPC-Analyse-Chip wieder aus- 
gleicht. Am Ausgang steht je nach verwendetem D/A- 
Umsetzer entweder ein linearer 16-Bit-Code oder ein 
logarithmisch komprimierter Code (A-Law) zur Verfü- 


gung. 


5 Entwurf eines Vocoders 


Mit diesem Chip ist es möglich, einen Duplex-LPC- 
Vocoder (Bild 7) auf einer Europlatine doppelter Größe 
(23 x 16 cm?) aufzubauen. Vierfach-Operationsverstär- 
ker und Einchip-Codecs mit Filtern halten die Chipan- 
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Bild 6. Bei der Sprachsignalgenerierung wird während einer 
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Bild 5. Der Synthese-Baustein besteht aus einem 
Erregergenerator mit zwei Signalquellen, einem Lat- 
tice-Filter sowie der Deemphasis-Stufe 





stimmlosen Rahmenperiode das Lattice-Filter 


Pseudo-Zufallswert erregt. Bei einem stimmhaften Laut ist der 


Mittelwert der Impulsfolge Null 
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Einchip-Computer „PD 7720 führt 4 Mio. 
Multiplikations-Additionszyklen in einer Sekunde aus 


Funktion 

Beim uPD 7720 SPI, der in Hochgeschwindigkeits-NMOS- 
Technologie gefertigt wird, handelt es sich um einen vollstän- 
digen 16-Bit-Mikrocomputer, der in einem 28poligen DIP- 
Gehäuse untergebracht ist. 

ROM-Kapazität für Programm und Koeffizienten ist vorhan- 
den, während der auf dem Chip vorhandene RAM-Bereich 
zum vorübergehenden Speichern von Daten, Koeffizienten 
und Ergebnissen benutzt werden kann. 

Rechnungen werden von einer 16-Bit-Arithmetik/Logik-Ein- 
heit und einem separaten parallelen 16x16-Multiplizierer aus- 


den SPI sowohl als hochentwickelte, programmierbare Peri- 
pherie als auch als selbständigen Mikrocomputer anzu- 
wenden. 


Speicher 

Es stehen drei Speicher zur Verfügung: Programm-ROM, 
Daten-ROM und Daten-RAM. Das Programm-ROM 
(512x23 Bit) wird über einen 9-Bit-Programmzähler adres- 
siert, der auch durch externe Reset-Befehle und Interrupts 
oder Call-, Jump- bzw. Return-Anweisungen modifiziert wer- 
den kann. 
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geführt. Diese Kombination erlaubt die Berechnung von 
„Summe von Produkten“ in einem einzigen Befehlszyklus von 
250 ns. Zusätzlich sorgt jeder OP-Befehl für eine Reihe von 
Datenbewegungsoperationen, um den Gesamtdurchsatz 
noch weiter zu erhöhen. 

Die seriellen und die parallele E/A sind per Software konfigu- 
rierbar zu 8 bzw. 16 Bit Wortlänge. Zwei serielle E/A-Ports 
stehen als Interface zu A/D-, D/A-Umsetzern, Codecs oder 
anderen seriell orientierten Funktionselementen zur Verfü- 
gung, während ein paralleler 8-Bit-Bus sowohl Daten als auch 
Zustandsinformation an übliche uPs weiterreichen kann. 
Handshaking-Signale und ein DMA-Interface erlauben es, 


Das Daten-ROM (512x13 Bit) wird ebenfalls durch einen 9- 
Bit-Pointer adressiert, der als Teil eines OP-Befehls modifi- 
ziert werden kann, so daß der nächste Wert für den nächsten 
Befehl zur Verfügung steht. Dieser Speicher ist besonders zur 
Ablage der benötigten Koeffizienten, Umwandlungstabellen 
und Konstanten für alle Ihre Verarbeitungsaufgaben geeignet. 
Das Dual-Port-Daten-RAM besteht aus 128 Worten mit 
jeweils 16 Bit und wird von einem 7-Bit-Datenpointer (DP) 
adressiert. Dieser hat weitgehende Adressierungsmöglichkei- 
ten simultan zu den arithmetischen Anweisungen, so daß 
keine zusätzliche Zeit benötigt wird, um Adressen anzuwäh- 
len oder zu modifizieren. 














126 





Applikation 



















ERC- 


Takte und 
Zeitsteuerung 














Analysator 
serieller a 
Analog ee een Ausgang 
signal- „Gold-Pitch- 
Eingang | Detektor" Steuer- 





PPD7720 


Bild 7. Blockschal- | 
tung eines | 
Duplex-Vocoders, | 
der mit Hilfe der 
Einchip-Signal- 
Prozessoren 


prozessor 









Außenwelt 


Ausgang | 
| 









uPD7720 auf einer jell LPC- 

Doppel-Europa- nn ED Synthesizer 8-Bit- 

Platine unterzu- PCM-Abtast-Daten Ingang SO „PD7720 Mikrocomputer - | 
Filter und Codec Datenbus | 


bringen ist 








Gold, B., Rabiner, L. R.: Parallel Processing Techniques for Estimating Pitch 
Periods of Speech in the Time Domain, J. Acoust. Soc. Am. Vol. 46, No. 2, 
Pt. 2, S. 442...448, Aug. 1969. 

Atal, B. S., Rabiner, L. R.: A Pattern Recognition Approach to Voiced-Unvoi- 
ced-Sillence Classification with Applications to Speech Recognition. IEEE 
Trans. ASSP, Vol. 24, S. 201...212, Juni 1976. 

Kawakami, Y., Nishitani, T., et. al.: A single-chip digital signal processor for 
voiceband applications. ISSCC Dig. Tech. Papers, S. 40...41. 1980. 

5] Hedelin, P.: RELP-Vocoding with uniform and non-uniform down-sampling, 
ICASSP-1983. 

Feldman, J. A., Hofstetter, E. M.: A Compact, Flexible LPC Vocoder based on 


zahl der analogen Zwischenstufen niedrig. Jeder All- 
zweck-uP ist als Steuerprozessor geeignet. Für die Kom- 
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LPC — wie und warum? 


Im Zuge der fortschreitenden Umstellung der Kommunika- 2.Innerhalb eines Rahmens kann das Sprachsignal durch 
tionssysteme auf digitale Arbeitsverfahren wurde eine große das Ausgangssignal eines variablen Filters angenähert 
Zahl von Sprachcodierungssystemen (Vocoder) entwickelt. werden, das durch eine Schallquelle erregt wird. Die 
Jede Methode ist ein Kompromiß aus Faktoren wie Signal- Schallquelle produziert entweder weißes Rauschen oder 
qualität, Übertragungsrate und Codiererkomplexität. eine Impulsfolge (Bild 6). 


Vocoder können in zwei Gruppen eingeteilt werden: Wellen- Das Filter ist ein Modell des Sprachtaktes; die Impulse ent- 





formcodierer und parametrische Codierer. Wie der Name 
sagt, versucht man mit dem Wellenformcodierer die Signal- 
form zu rekonstruieren, während parametrische Codierer nur 
versuchen, das Eingangsspektrum zu rekonstruieren. „LPC“ 
(Linear Predictive Coding) ist eine Form der parametrischen 
Codierung. Der Hauptvorteil liegt in der geringen Bandbreite. 
Um ein Sprachsignal mit einer Bandbreite von 3,5 KHz zu 
reproduzieren, braucht LPC lediglich 2,4 kBit/s, während 
Standard-log-PCM 64 kBit/s benötigt. 


LPC basiert auf zwei Voraussetzungen: 

1. Das Sprachsignal verändert sich langsam. Seine Charakte- 
ristica sind über einen Zeitraum von etwa 10...20 ms annä- 
hernd konstant. Dieser Zeitraum heißt „Frameperiode“ 
(Rahmenperiode). 


sprechen der Sprachlage (Pitch) von stimmhaften Lauten 
(Vokale) und die Rauschaquelle entspricht dem Rauschen, das 
von dem sich zusammenziehenden Sprachtakt bei stimmlo- 
sen Lauten erzeugt wird (Konsonanten). 


Um Sprache zu reproduzieren, ist ein Filter der Ordnung 10 
oder größer nötig. Die Rahmenperiode ist dabei typischer- 
weise 20 ms. 


Der LPC-Analysator berechnet die optimalen Filterkoeffizien- 
ten für jeden Rahmen und klassifiziert diesen außerdem als 
stimmlos oder stimmhaft. In stimmhaften Rahmen wird auch 
die Stimmlage (Pitchperiode) geschätzt. Der LPC-Synthesizer 
bildet die Schallquellen-Filter-Struktur mit den vom Analysator 
bestimmten Filterkoeffizienten und der Erregung nach. 
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Codegenerator erstellt 


Reglerprogramm für TMS 320 


Den Signalprozessor TMS320 kann man zur Zeit noch 
nicht in einer höheren Programmiersprache, wie z.B. 
Pascal, programmieren. Aus diesem Grund ist man 
gezwungen, die Programmierung in Assemblerspra- 
che vorzunehmen. Dies ist allerdings unpraktisch, 
wenn sich in der Laborphase die Daten des Reglers 


1 Nutzen des Codegenerators 


Soll der Signalprozessor TMS320 als universelles 
Reglersystem im Labor Verwendung finden [1], ist es 
von Vorteil, wenn der Regler sich durch schnelles 
Umprogrammieren an verschiedene Regelungsaufgaben 
anpassen läßt. Die Programmierung von „Hand“ in 
Assemblersprache ist sehr mühsam und fehleranfällig, 
wobei viel Zeit investiert werden muß, bis der jeweilige 
Regler läuft. In der Erprobungsphase eines Reglers, in 
der sich noch Parameter ändern können, ist die Hand- 
programmierung in Assemblersprache ebenfalls zeitrau- 
bend und fehleranfällig. Durch die Änderung einiger 
Parameter kann es sich z.B. ergeben, daß sich die 
Anzahl der Koeffizienten erhöht. Ergibt sich nun, daß 
die Anzahl der Koeffizienten die Zahl der verfügbaren 
Speicherplätze im Daten-RAM übersteigt, ist man 
gezwungen, größere Teile des Assemblerprogramms zu 





f 


| Abtastzeit- 
\ punkt 


Abtastzeit- 
punkt 


Ax, +Bu+f, J=CR, #E, 


FZZZZASSIIITIIIRARRRRRRÄÄÄ 3 | 


Ausgabe von yy 


Totzeıt 
Abtastzeit 


Bild 1. Zeitlicher Ablauf des Regelalgorithmus 
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noch ändern, da dies oft zu einem neuen Assembler- 
programm führt. Aus diesem Grund wurde ein Code- 
generator in UCSD-Pascal entwickelt, der für Mehr- 
größen-Regler automatisch das Assemblerprogramm 
für den TMS320 erstellt. Er läuft auf den Tischrechnern 
HP9836 und Kontron PSI80. 


ändern. Eine Änderung des Assemblerprogramms ist 
ebenfalls notwendig, wenn sich herausstellt, daß in 
Festkommaarithmetik die Genauigkeit von 16 Bit, mit 
denen die Daten und Koeffizienten dargestellt werden, 
nicht ausreicht. In diesem Fall muß dann mit doppelter 
Genauigkeit gerechnet werden. Dabei besteht die Mög- 
lichkeit, wahlweise nur die Daten bzw. Koeffizienten, 
oder beide in doppelter Genauigkeit zu verwenden. Für 
jede Variante ist ein gesondertes Assemblerprogramm 
zu erstellen. Diese Möglichkeiten lassen sich im Labor 
nur dann sinnvoll nutzen, wenn die Assemblerpro- 
gramme durch einen Codegenerator automatisch erstellt 
werden. 


2 Abarbeitung des Regleralgorithmus 


Dem Assemblerprogramm, das vom Codegenerator 
erstellt wird, liegt folgender Algorithmus zugrunde: 


x Ax+Buwu + f (Xuck) 

yk=Cx+Dw+ f, &usk) 

Dabei sind A, B, C und D die Matrizen des linearen 
Reglers in Zustandsform. Die Vektoren f,und f, enthal- 
ten die nichtlinearen Terme des Reglers. Sind keine 
nichtlinearen Terme vorhanden, entfallen die Vektoren 
f, und f,. Das Abarbeiten des Algorithmus geschieht in 
der Weise, daß nach der Abtastung der Meßgrößen ur 
nur noch das D ux + f,’' berechnet wird, wobei f,' die 
nichtlinearen Terme von f, enthält, die mit den aktuel- 
len Meßgrößen u, verknüpft sind. Zu den Ergebnissen 
von D ux + fy' addiert man die im vorhergehenden 
Abtastschritt ermittelten Werte vony’=Cxx + f”. Das 
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fy” enthält dabei die nichtlinearen Terme, die nicht mit 
den aktuellen Meßgrößen u, verknüpft sind. Die Ergeb- 
nisse lassen sich noch über die nichtlinearen Terme f,'” 
bewerten, bevor sie als Stellgrößen yı ausgegeben wer- 
den. Nach der Ausgabe der Stellgrößen werden die 
Werte sy =Ax +tBu + Kundy=Cx + f/” 
bestimmt. Fa 5 u 

Durch diese Reihenfolge der Berechnung erreicht 
man, daß die Zeit zwischen der Abtastung der Meßgrö- 
ßen ux und der Ausgabe der Stellgrößen yx möglichst 
klein ist, da sie sich als Totzeit im Regler bemerkbar 
macht. 


3 Struktur des Codegenerators 


3.1 Aufbereitung der Koeffizienten des linearen Reglers 





Die Koeffizienten des linearen Reglers, d.h. die Ele- 
mente der Matrizen A,B,CundD, die von einer Regler- 
entwurfs-Software geliefert werden, stehen als Realzah- 
len in einer Datei auf der Diskette. Neben den Koeffi- 
zienten sind noch Angaben über die Ordnung des 
Systems und die Anzahl der Ein- und Ausgänge des 
linearen Reglers enthalten. Da der Signalprozessor einen 
Zahlenbereich von -1,0 bis +1,0 hat, bei Linkskomma- 
darstellung, können nur die Koeffizienten, die in diesen 
Zahlenbereich fallen, direkt in eine Binärzahl umgewan- 
delt werden. Bei den Koeffizienten, die noch einen 
ganzzahligen Anteil besitzen, ist dieser abzutrennen, da 
er vom Codegenerator bei der Skalarproduktbildung 
gesondert berücksichtigt werden muß. Der gebrochene 
Anteil läßt sich wie bei den anderen Koeffizienten in 
eine Binärzahl umwandeln. Vor Ausführung der 
Umwandlung besteht die Möglichkeit, die Koeffizienten 
der Skalarprodukte so zu skalieren, daß im ungünstig- 
sten Fall ein bestimmter Wert nicht überschritten wird. 
Diesen Wert wählt man günstigerweise so, daß er dem 
maximal darstellbaren Zahlenbereich des Akkumulators 
im TMS 320 (-2,0...+2,0) entspricht. Für den ungünstig- 
sten Fall geht man davon aus, daß die variablen Daten 
betragsmäßig maximal 1,0 werden können, und somit 
die Beträge der Koeffizienten jeweils eines Skalarpro- 
duktes aufzuaddieren sind. Überschreitet die Summe 
den vorgegebenen Zahlenbereich, werden die Koeffi- 
zienten so lange durch zwei dividiert, bis die Summe 
den Zahlenbereich nicht mehr überschreitet. Dabei 
bedeutet jede Division durch zwei im Signalprozessor 
eine Verschiebung um eine Stelle nach rechts. Diese 
vorgenommene Skalierung muß nach der Berechnung 
des jeweiligen Skalarproduktes wieder rückgängig 
gemacht werden, um die ursprüngliche Stellenwertig- 
keit wieder zu erlangen. Ziel dieser Skalierung ist es, zu 
verhindern, daß während der Akkumulation der Partial- 
summen eines Skalarproduktes ein Überlauf auftritt. 
Dieser könnte sich bei der Regelung ungünstig auswir- 
ken. Ist die gewünschte Skalierung durchgeführt, 
beginnt man mit der Umwandlung der Realzahlen in 
eine Binärzahl, wobei noch unterschieden wird, mit 
welcher Genauigkeit gerechnet werden soll. Es stehen 
drei Möglichkeiten zur Auswahl: 





Linearer Reglerteil 
16-Bit-Genauigkeit 


nıcht linearer 
Reglerteil 


fur Genauigkeit>16 Bit | 





I 
| 
I 
| 
| 
| 
I 
I 
I 
| 
| 
I 
| 





















Bild 2. 
Programm- 
ablauf der 
Code- 
generierung 











a) Daten und Koeffizienten in 16 Bit 

b) Daten in 16 Bit Koeffizienten in 32 Bit 

c) Daten und Koeffizienten in 32 Bit 

Für die Fälle b) und c) wird die Umwandlung in zwei 
Schritten vorgenommen. Im ersten Schritt werden die 
höherwertigen 16 Bit ermittelt. Dies entspricht dem 
Anteil der Realzahl, der durch die Potenzen 2...2”"° 
darzustellen ist. Der sich ergebende Rest der Realzahl 
kommt in eine temporäre Datei zur Zwischenspeiche- 
rung. Im zweiten Schritt dient dieser Rest für die Ermitt- 
lung der niederwertigen 16 Bit, die dem Anteil der 
Realzahl entspricht, der mit den Potenzen 2”"®,..2”°° dar- 
gestellt wird (Bild 2). 


3.2 Zuordnung der Speicherplätze im Daten-RAM 





Bevor man mit der Codierung für das Reglerprogramm 
beginnen kann, muß man feststellen, wieviele Daten- 
RAM-Speicherplätze benötigt werden. Dies ist erforder- 
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lich, da man mit den 144 Daten-RAM-Plätzen des 
TMS 320 schnell an Grenzen stößt. Die benötigte Anzahl 
an Speicherplätzen bestimmen die Elemente ux, Xx, Xk+1, 
y« und den Koeffizienten des linearen Reglers, und, 
soweit vorhanden, die Koeffizienten, Zwischenspei- 
cherplätze und Konstanten der nichtlinearen Funktio- 
nen des Reglers (Bild 3). Reicht der Speicherplatz nicht, 
muß man durch geeignete Schritte versuchen, den Reg- 
ler trotzdem zu realisieren. Dabei ist davon auszugehen, 
daß die Anteile der nichtlinearen Funktionen unverän- 
dert im Daten-RAM gespeichert werden müssen, da die 
Codestücke für die nichtlinearen Funktionen fertig vor- 
liegen und nicht geändert werden sollen. Aus diesem 
Grund müssen die Koeffizienten des linearen Reglers so 
modifiziert sein, daß der Speicherplatz des Daten-RAMs 
ausreichend ist. Hierfür bieten sich mehrere Möglichkei- 
ten an. Die erste Möglichkeit ist, nur die Koeffizienten, 
die kleiner -4096 und größer 4095 sind, im Daten-RAM 
zu speichern, während die anderen Koeffizienten in den 
Befehl MPYK eingebunden werden und somit Bestand- 
teil des Codes im Programmspeicher werden. Reicht 
diese Aufteilung der Koeffizienten nicht aus, müssen sie 


in einen 13-Bit- und einen 16-Bit-Anteil aufgespalten 
werden. Bei dieser Aufteilung sind nur noch 15 Spei- 
cherplätze für den 16-Bit-Anteil im Daten-RAM nötig. 
Der 13-Bit-Anteil wird wieder in den Befehl MPYK 
eingebunden [2]. Liegt die Aufteilung des Daten-RAMs 
fest, kann man mit der Codeerzeugung für das Regler- 
programm beginnen. 


3.3 Assemblerprogrammerstellung 





Der Codegenerator ist so organisiert, daß er zuerst das 
Codestück für die symbolische Zuweisung der Speicher- 
plätze des Daten-RAMs erstellt. Hiernach folgt das Code- 
stück für die Daten-RAM-Belegung und das Codestück 
für die Datenübernahme aus dem Programmspeicher in 
das Daten-RAM (Bild 4 und 6). Nach den Eingabebefeh- 
len für die Eingangsgrößen u; folgt das Codestück für die 
Teilskalarprodukte D uy, gefolgt von den Outputbefeh- 
len für die Stellgrößen yx. Danach folgen die Codestücke 
für die Skalarprodukte xx}, und C xx. Dabei ist der 
Codegenerator so konzipiert, daß er für jedes Skalarpro- 

dukt ein separates Codestück 





Bild 4. Programmaufbau 
des generierten Assem- 
blerprogramms 


x x” 
E52 
SE 


x 


k 
. 
. 
. 
. 
. 
. 
. 
. 


772 


Rücksprung vom 


D 


Sprung an basc fy' 


Sprung zum “N 
Rücksprung = BRSERE R 


7A 


Konstanten, 
Zwischenspeicherplätze 
der nichtlinearen 
Funktionen des 
Reglers 


Sprung zum in 
Rucksprung un hc yet 


1, 


Koeffizienten des Berechnung von fy' 
Linearen Reglers 


Berechnung von fy 





Bild 3. Speicherbelegung 


h Berechnung von fy'""/fx 
im Daten-RAM 








] Ausgabe der Stellgroßen y, 


D Rücksprung zu Einlesen 


anlegt, dessen Länge sich 
nach der Anzahl der Koeffi- 
zienten richtet. Auf eine 
Schleifenstruktur ist aus 
Gründen der optimalen Zeit- 
ausnutzung verzichtet wor- 
den. Den ganzzahligen Anteil 
eines Koeffizienten berück- 
sichtigt der Codegenerator in 


Symbolische Adressen 
der varıablen Daten und 
Koeffizienten 


Programmteil fur 


Daten-RAM Belegung dem jeweiligen Skalarpro- 
dukt durch eine entsprechen- 
de Befehlskonstruktion. 

Einlesen der Meßgrößen ux Beim Codeaufbau für die 
Skalarprodukte entscheidet 


der Codegenerator selbstän- 
dig, mit welchen Befehlen 
die Partialsummen berechnet 
werden müssen, d.h. er be- 
rücksichtigt eine eventuell 
notwendig gewordene Auf- 
spaltung der Koeffizienten. 
Sind die Koeffizienten eines 
Skalarproduktes skaliert wor- 
den, erstellt der Codegenera- 
tor für diese Skalarprodukte 
auch die notwendigen Code- 
stücke für die Rück- 
skalierung und Überlauf-Un- 
tersuchung, die dem jeweili- 
gen Codestück für das Skalar- 
produkt hinzugefügt wird. 
Sind auch nichtlineare Funk- 
tionen des Reglers zu berück- 
sichtigen, so fügt der Codege- 
nerator an den entsprechen- 
den Stellen des Codes für den 


Berechnung von Dux 
und Addition zuC xx 


Berechnung von 
Axk+ Bu und Cxx 


der Meßgrößen ux 








130 











Applikation 











UCK)ATEQU;O! 

XCK+LIL:EQU SAN 
XKCK+HUIZIEQUSZ! 
XCK+1)3:EQUS! 


KCKIL:EQU,2! Symbolische Adressen 
X(KIZ:EQU;A! 
XKIZSEQU;,G! der variablen Daten 


Y(Kdi:EQU;T! 
Y(KdLL:EQU;B! 





Ai A:EQU;Y! 
Ai 2:EQU;540! 
AZ A:EQUSLA! 
a2 2:EQU;AL2I 
A3 Z:EQU;IiZ! 
Bi en Symbolische Adressen 
RP? AG:EQU;5AS! R 
B3 1:EQU;46! der Koeffizienten 
24 IsEQU5AT! 
Ci 2:EQU,48! 
Ci ZYEQU;1Y! 
Di I:EQU52D! 
:B; JUMPA! 
:DW;0! 
:DW;,0! 
a Speicherplätze für 
ıDW;0! 
:DW;0! g 
a variable Daten 
:DW;01! 
:DW;0! 
:DW;0! 


:DW5I2283%1 

:DW;54049&! 

:DW;-404961! E 
DWABRBST Koeffizienten 
ıDW549054 1 

DW -4468 | 

: DW, 6806! 

ıDW54947 \ 





ADR:DW;O! 

TUMPA:LARK,S;ADR! 
:LARK,0;, 20! 
:LARK,054127 1! 
{L.DPK;,O! 

JUMPER:SAR ‚150! 
:ZALS;O! 
MAR; KA! 
MAR; ! 


EMAR KO aus dem Programm-RAM ins 


:TELRZKON 
: BANZ ; JUMP RI 
SOUM! 


interne Daten'RAM 


ADRA: 
ADRE: 
ADRZ: 
ADRA: DW; 4! 
JUMP HL.DPK 5A! 








!LACK ;ADRZ 
:TELR,2! 
:LACK ;ADRA! 
ıTBLR,3! 
:LDPK;0! 
JUMPE :BLOZ ;JUMPE ! 
CB * ı 
EN OSUCKIT Input ux 
LTSUCKIA! 
MPY5Di 4! 
APAL, I yY,= z'+Du 
SADDHSYCKYA! m ati 


Bild 6. Generiertes Reglerprogramm (Regler 3. Ordnung, 1 Eingang, 1 Ausgang) 


JAYCKIA :LDPK;A! 


IBYCKDi :LAC,7,131 


JCYeKdi ıLDPK;D! 


Übernahme der Paten 


:ADDS;YCKILA! 
:BGEZ,TAYCKIA 
:LDPK;A! 
:SACH, 0,421! 
!SACL. 513! 
!LAC,8B;,A2! 
:SACH, 035441! 
:ZAl.S,44 1 


:XOR;Z! Rückskalierung und | 
:BZ,TBEYEKIA N 
:ZALS;A! Overflow-Abfrage von 


:LDPK50! 
:SACLSYCKIL! 
B,ICYeK dA! 


:SACH,O;A2I 
:SACL. 513! 
ıLAG,B,AR! 
:SACH, 05,44! 
:ZAl.S;544 1 
:XOR;2! 
:BZ,IBYCK)A! 
:2Al.5;,01! 
!LDPK;O! 
:SACLZYCKIA N 
:B,TCYCKIA 


:SACH, 035431 

: ZALS;13! 
:AND;O! 

:SACL ;4.3! 
:LAC,7;512! 
:SACL;i2! 
:ZALH;i2! 
:ADD,8; 13! 
:LDPK;,0! 
:SACH,D,YCKIA I 


OUT ,A;YCKDAN 
:DMOV;XCK+4)i 
:DMOV KK HAI! 
:DMOVSXCK+4 3! Er x 

ı ZAC! 

YUTIRCKRIA! 

ıMPYzAA A! 

ILTASKCKIZ2N 

ıMPY;Ai 2 

:L.TAZUCKDIAT 

ıMPY;EA A! x-update 

:APAC! 

:SACH A ZXCK+ A! 

: Zac! yı Ay +Bu 

ILT3XCKIA! 

:MPYzA2 A! 

ILTASKCKIBI 

ıMPY;A2 2! 

!LTAZUCKIA! 

ıMPY;RB2 A! 

:APAC! 

:SACH,I,XCKHA IA! 

ı ZAC! 

ILT3XCKIZ! 

ıMPY;A3 3! 

ILTAZUCKIA 

:MPY;EBZ A! 

:ArFAC! 

:SACH A SKCK+U) 31 

ı ZAC! 

ILTIKCK+AL IA! 

:MPY3SCt 4.1 

ILTAZXCK+HA)2! 

ıMPY,CA 2! 

ILTA;XCK+I)Z! 

ıMPY;3Ci 3! 

:APAC! 

:SACH,O,ZYCKIAT 

:SACL.;YCKIL.A! 

‘BE; JUMPE! 


Output Yk 
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linearen Regler Sprungmarken ein (Bild 4), die auf den 
Code der nichtlinearen Funktionen verweisen. Die 
Codestücke werden vom Codegenerator an das Ende des 
Codes für den linearen Regler angehängt. Diese Code- 
stücke werden nicht vom Codegenerator erzeugt, son- 
dern aus einer Bibliothek bezogen, die auf einer Diskette 
steht. 


4 Aufbau der nichtlinearen Funktionen 


Die Vektoren f, und f, enthalten die nichtlinearen 
Funktionen des Reglers. Sie stehen getrennt von den 
Koeffizienten des linearen Reglers auf einer Diskette. 
Die Elemente der Vektoren f, und f, haben die folgende 
Form 


1.0, 0 3 Gäb,6..:]» 


G steht hier für einen Funktionsnamen, unter dem der 
Codegenerator in einer Bibliothek ein fertiges Codestück 





Namen und Wert der Konstanten. Die Namen 
sind an den Funktionsnamen gekoppelt 


Namen der benötigten Zwischenspeicherplätze 
Verwendete symbolische Namen 


Namen für Sprungadressen (sind an den 
Funktionsnamen gekoppelt) 


Anzahl der benötigten Instruktionsworte 


26 Su SE 22 22 22; 


Codestück der nichtlinearen Funktion 


Bild 5. Filestruktur für die nichtlinearen Funktionen 











für die Funktion findet. Die Buchstaben in der eckigen 
Klammer geben die Variablen der Funktion an. Ein 
Beispiel zeigt dies: 


x(k+1)1 : QU [x(k+1)1, u(k)2] 


Das QU steht hier für die Funktion e = a + b?, wobei in 
diesem Beispiel a=x(k+1)1 und b=ufk)2 ist. In Worten 
ausgedrückt heißt dies, daß zu dem Wert x(k+1)1 der 
quadrierte Eingangswert u(k)2 addiert werden soll. Das 
Ergebnis ist dann wieder auf dem Speicherplatz von 
x(k+1)1 zu speichern. Die Syntax, in der die Funktionen 
als Datei zu erstellen sind, zeigt Bild 5. Diese Datei 
gliedert sich in zwei Teile, dem Vereinbarungs- und 
dem Codeteil. Im Vereinbarungsteil stehen die benutz- 
ten Konstanten, die benötigten Zwischenspeicherplätze, 
verwendete Namen für Sprungadressen und die symbo- 
lischen Namen für die Variablen. Werden einzelne Teile 
im Vereinbarungsteil nicht benötigt, bleiben diese Fel- 
der leer. 
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Für die oben angegebene Funktion (x(k+1)1 : QU 
[x(k+1)1,u(k)2]) hat das File die folgende Form: 


Filename: QU 


“*&K 


xrr* 


AS 
BS 
CS 


TI:=5 

LAG,15;BS ! 
LT;CS ! 
MPY;CS |! 
APAC ! 
SACH,1;AS! 


arkAırıkıkıK Kr 


Die symbolischen Namen AS, BS, CS korrespondieren 
mit den Bezeichnern im Funktionsaufruf, d.h. in diesem 
Beispiel: 


AS 2 x(k+1)1 neu 
BS 2 x(k+1J1 alt 
CS 2 u(k)2 


Während der Code an das Programm des linearen Reg- 
lers angebunden wird, sucht der Codegenerator den 
Code nach den symbolischen Namen ab, und fügt an den 
Stellen entsprechend der oben angegebenen Zuordnung 
die entsprechenden Werte ein. 
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Dipl.-Ing. Wolfgang Loges 


Schneller digitaler Regler 


mit Signalprozessor 


Signalprozessoren eignen sich aufgrund ihrer speziel- 
len Merkmale auch zur Realisierung von schnellen 
digitalen Mehrgrößen-Reglern. Mit dem hier verwende- 
ten Signalprozessor TMS 320 lassen sich Abtastraten 


Zentrale Rechenoperation in der digitalen Regelungs- 
und Filtertechnik ist die Berechnung von Skalarproduk- 
ten. Bei der Bildung des Skalarproduktes müssen Multi- 
plikationen und Additionen ausgeführt werden. So 
kann z.B. bei der Realisierung eines Reglers 10. Ord- 
nung mit fünf Eingängen (Meßgrößen) und einem Aus- 
gang (Steuergröße) die Berechnung von elf Skalarpro- 
dukten erforderlich sein. Je nach Aufbereitung der 
Reglerdaten bedeutet dies zwischen 75 und 165 Multi- 
plikationen und 64 bis 154 Additionen pro Abtast- 
schritt. Um hier auf kurze Abtastzeiten zu kommen, 
benötigt man ein System, das die Multiplikation und 
Addition schnell ausführen kann. Hier bietet sich der 
Signalprozessor TMS320 von Texas Instruments an, der 
über einen 16X 16-Bit-Hardware-Multiplizierer auf dem 
Chip verfügt. Pro Multiplikation benötigt der Baustein 
nur einen Maschinenzyklus, was bei maximaler Taktrate 
des TMS320 einer Zeit von 200 ns entspricht. Die Akku- 
mulation der Produkte erfolgt mit einer Breite von 
32 Bit. Da der TMS320 — obwohl als „Signalprozessor“ 
bezeichnet — in Strukturen und Befehlssatz Merkmale 
eines Universal-Mikroprozessors aufweist, ist er auch 
z. B. für Aufgaben der adaptiven Regelung geeignet, wo 
über die obengenannte Skalarproduktbildung hinaus 
auch noch andere Operationen zu realisieren sind. 


1 Systemstruktur 


Beim Systemaufbau wurde auf eine modulare Struk- 
tur Wert gelegt. Hierdurch bietet sich die Möglichkeit 
der späteren Erweiterung und Anpassung an wech- 
selnde Anforderungen. Das System besteht aus den 
Modulen Prozessorkarte mit dem TMS320, Interface- 
karte, Steuerkarte und den ADU/DAU-Subsystemen 
(Bild 1). Für die ADU- und DAU-Subsysteme stehen zur 


erreichen, die mit herkömmlichen Mikroprozessoren 
nicht zu erzielen sind. Das hier vorgestellte System ist 
so konzipiert, daß es auch andere Aufgaben der digita- 
len Signalverarbeitung lösen kann. 


Zeit sechs Steckplätze zur Verfügung, die beliebig 
bestückt werden können. Dabei enthält das ADU-Subsy- 
stem einen Analog/Digital-Umsetzer und ein DAU-Sub- 
system zwei Digital/Analog-Umsetzer. Über die Interfa- 
cekarte wird das Programm, das auf einem Gastrechner 
erstellt wurde, in den Programmspeicher des TMS320 
geladen. Dazu kann der Prozessor angehalten und vom 
Adreß-, Daten- und Steuerbus getrennt werden. Weiter- 
hin hat man vom Gastrechner Zugriff zur Steuerkarte, 
um dort zu Beginn definierte Zustände zu erzeugen. 
Auch zu den ADU-DAU-Subsystemen hat man mit dem 
Gastrechner Zugriff. Die Steuerkarte sorgt für den richti- 
gen zeitlichen Ablauf der Datenübertragung vom ADU- 
Subsystem zum Prozessor und der Übertragung der Pro- 
zessordaten in das DAU-Subsystem. 


2 Hardware 
2.1 Prozessorkarte 


Diese Karte enthält den Prozessor TMS320, den Pro- 
grammspeicher, bestehend aus 4-Kx4-Bit-RAMs mit 








Ausgange 









Eingange 
Bild 1. Blockschaltung des Gesamtsystems 
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50 ns Zugriffszeit, FIFO-Speicher und Tristate-Buffer als 
Buskoppler. Mit Hilfe dieser Tristate-Buffer kann man 
Systemgruppen vom Bussystem abkoppeln. Hierdurch 
bietet sich die Möglichkeit, vom Gastrechner aus über 
die Interfacekarte auf Programm- und FIFO-Speicher 
zuzugreifen. Die Ausgänge der Tristate-Buffer werden 
ebenfalls über die Interfacekarte vom Gastrechner aus 
gesteuert. Es ist hierüber möglich, das Programm und 
auch Daten auf dem Gastrechner vorzubereiten und 
dann in den Programmspeicher des TMS320 zu laden. 
Dazu wird der Prozessor durch die Tristate-Buffer vom 
Adreß- und Steuerbus getrennt und vom Datenbus, 
indem man ihn in die Reset-Stellung bringt. Nach Been- 
digung der Datenübertragung wird der Gastrechner 
durch Tristate-Buffer von der Prozessorkarte getrennt 
und der TMS320 wieder an die Bussysteme angeschlos- 
sen, so daß er selbständig laufen kann. Es besteht aber 
jederzeit die Möglichkeit, den Prozessor wieder anzu- 
halten, um sein Programm zu ändern, falls dies 
gewünscht wird. 

Die Ankopplung an die Umsetzersubsysteme erfolgt 
über FIFO-Speicher. Dafür gibt es verschiedene Gründe: 
Da der Prozessor TMS320 einen sehr kurzen Buszyklus 
hat, empfiehlt sich eine Trennung der zeitkritischen 
Prozessorseite von den zeitunkritischeren Umsetzersub- 
systemen. Ein weiterer Grund liegt in der begrenzten 
Anzahl von Schnittstellenadressen. Der TMS320 bietet 
selbst nur acht Schnittstellenadressen. Bei diesem Bei- 
spiel wurde das Problem so gelöst, daß der FIFO-Spei- 
cher für die ADU-Subsysteme unter einer Schnittstel- 
lenadresse anzusprechen ist und der FIFO-Speicher für 
die DAU-Subsysteme unter einer anderen Adresse. Da 
die FIFOs eine Speichertiefe von 16 Bit haben, können 
über die zeitliche Reihenfolge bis zu 16 ADU- bzw. 
DAU-Subsysteme bedient werden (Bild 2). Bezogen auf 
die ADU-Subsysteme heißt dies, daß als erstes der Digi- 
talwert vom ADU 1 in den FIFO-Speicher geschrieben 
wird und danach der Digitalwert vom ADU 2 usw. Sind 
die Werte aller ADU-Subsysteme im FIFO-Speicher, so 
wird dies dem Prozessor über eine Statusleitung mitge- 


teilt. Hat der Prozessor Daten für die DAU-Subsysteme, 
schreibt er diese in den entsprechenden FIFO-Speicher. 
Danach werden die Werte, durch die Steuerkarte 
gelenkt, auf die einzelnen DAUs verteilt. 


2.2 Umsetzer-Subsysteme 


Das Analog/Digital-Umsetzer-System enthält einen 
12-Bit-Umsetzer mit einer Umsetzzeit von 25 us. Dieser 
Wert ist nicht übermäßig kurz, fällt aber nur einmal pro 
Abtastschritt an, da die Umsetzer parallel angeordnet 
sind. Diese Zeit kann bei umfangreicheren Regleralgo- 
rithmen als Rechenzeit genutzt werden, so daß die 
Abtastzeit durch die Umsetzzeit nicht erhöht wird. 

Mit Hilfe des zentralen Abtasttakts wird die Umset- 
zung gestartet. Das Ende der Umsetzung wird durch eine 
Pegeländerung auf der Statusleitung angezeigt. Dieses 
Signal veranlaßt, daß die Daten vom Umsetzer in D- 
Flipflops zwischengespeichert werden. Das Statussignal 
wird auch zur Steuerkarte geführt. Dort werden die 
Statussignale aller angeschlossenen ADUs miteinander 
verknüpft, um den Zeitpunkt festzustellen, wann alle 
Umsetzvorgänge beendet sind, denn erst danach wird 
mit der Datenübertragung von den ADU-Systemen zum 
FIFO-Speicher auf der Prozessorkarte begonnen. Ein- 
zelne Umsetzersysteme werden durch eine 4-Bit- 
Adresse angesprochen. Soll eine Datenübertragung vom 
Umsetzersystem zum FIFO-Speicher stattfinden, sendet 
die Steuerkarte die jeweilige Adresse. Das angespro- 
chene Umsetzersystem hebt den Tristate-Zustand der D- 
Flipflops auf, wodurch die Daten in den FIFO-Speicher 
übernommen werden können. 

Als Digital/Analog-Umsetzer wird ein Baustein ver- 
wendet, der zwei 12-Bit-Registerblöcke enthält, die hin- 
tereinander geschaltet sind, aber zeitlich getrennt gela- 
den werden können. Dadurch ist es möglich, neue Daten 
in den Umsetzer zu übernehmen, ohne die momentanen 
Werte im zweiten Registerblock, die umgesetzt werden, 
zu ändern. Erst durch ein zusätzliches Steuersignal wer- 
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den diese Daten in den zweiten Registerblock übernom- 
men und am Ausgang wirksam. Dies ist dann von Vor- 
teil, wenn im Fall mehrerer paralleler DAU-Systeme die 
Werte gleichzeitig ausgegeben werden sollen, aber nur 
zu verschiedenen Zeiten an die einzelnen Systeme über- 
geben werden können. Die Umsetzersysteme werden 
über eine 4-Bit-Adresse angesprochen. Soll eine Daten- 
übertragung vom FIFO-Speicher zum DAU-System statt- 
finden, sendet die Steuerkarte die jeweilige Adresse. Das 
angesprochene System kann dann auf die notwendigen 
Steuersignale zum Übernehmen der Daten reagieren. 


2.3 Steuerkarte 


Auf dieser Karte befindet sich die Steuerung der 
Datenübertragung zwischen den FIFO-Speichern auf der 
Prozessorkarte und den Umsetzersubsystemen. Sie 
generiert die notwendigen Steuersignale für die FIFO- 
Bausteine sowie die Adressen und Steuersignale für die 
Umsetzersubsysteme. Weiterhin wertet sie die Statussi- 
gnale der angeschlossenen Analog/Digital-Umsetzer aus, 
um festzustellen, wann alle Umsetzvorgänge abge- 
schlossen sind. Außerdem wird der Abtasttakt für das 
Gesamtsystem von der Steuerkarte zur Verfügung ge- 
stellt. 


2.4 Interfacekarte 


Die Interfacekarte verbindet den digitalen Regelungs- 
rechner mit einem Gastrechner. Mit deren Hilfe hat der 
Gastrechner die Möglichkeit, auf den Programmspeicher 
des TMS320 und die FIFO-Bausteine zuzugreifen. Über 
die FIFO-Bausteine hat der Gastrechner indirekt Zugriff 
auf die Umsetzsubsysteme. Das Reglerprogramm wird 
auf dem Gastrechner erstellt und dann über die Interfa- 
cekarte in den Programmspeicher des TMS320 übertra- 
gen. Danach werden die Leitungen der Interfacekarte in 
den hochohmigen und die Leitungen des TMS320 in 
den aktiven Zustand geschaltet. Damit läuft der Prozes- 
sor selbständig mit dem vorher eingespeicherten Pro- 
gramm. Bei notwendigen Änderungen kann man jeder- 
zeit eingreifen, um z. B. ein neues Programm zu laden. 
Durch Austauschen der Interfacekarte lassen sich belie- 
bige Gastrechner anschließen. 








Bild 4. Simulation der Sprungantwort des Reglers 5. Ordnung 











3 Programmrealisierung 


Aufgebaut wurde ein Regler 5. Ordnung mit einem 
Eingang (Meßgröße u,) und einem Ausgang (Steuergröße 
yx). Dieser Regler war ursprünglich auf der Grundlage 
eines 16-Bit-uPs aufgebaut und diente einer industriel- 
len Anwendung. Mit diesem Konzept wurde eine 
Abtastzeit von einigen Millisekunden erreicht. 

Für die Realisierung findet der folgende Algorithmus 
[8] Verwendung: 


X4ı=Axı+tBuw 
=Cx, +Dw 


Sobald die Eingangsgröße (Meßgröße ug) umgesetzt vor- 
liegt, wird yx berechnet. Der dazu benötigte Wert xx liegt 
vom vorhergehenden Abtastschritt vor. Nach erfolgter 
Berechnung von yx wird dieses an das DAU-Subsystem 
übergeben. Hiernach wird xx+1 berechnet, das dann für 
den nächsten Abtastschritt benötigt wird. Bei Verwen- 
dung des oben angegebenen Algorithmus läßt sich die 
Umsetz- plus Übergabezeit der Eingangsgröße ux für die 
Berechnung des xx+. nutzen (Bild 3). Bei Reglern höhe- 
rer Ordnung mit vielen Arithmetikoperationen ist in der 
Regel die Zeit für die Berechnung von xx; größer als die 
Zeit für die Umsetzung und Übergabe der Meßgrößen, so 
daß letztere die Abtastzeit nicht erhöhen. Dadurch kön- 
nen auch relativ langsame Umsetzer Verwendung fin- 
den. Für den realisierten Regler 5. Ordnung ergibt sich 





= 





Bild 5. Sprungantwort des realisierten Reglers 5. Ordnung 
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bei maximaler Taktrate des TMS320 eine Abtastzeit von 
50 us (entspricht 20 kHz Abtastfrequenz). Dabei benötigt 
die Berechnung des yx-Wertes 9 us. Die Berechnung von 
Xxx+] dauert 14 us. Die Umsetzzeit ist damit noch nicht 
ganz ausgeschöpft. Dies wird aber bei einem Regler 
erheblich höherer Ordnung als fünf oder bei Vorhanden- 
sein mehrerer Ein- und/oder Ausgangsgrößen der Fall 
sein. 


4 Weitere Entwicklung 


Geplant ist eine automatische Programmgenerierung 
für Mehrgrößen-Regler auf einem Gastrechner (ähnlich 
wie in [8] beschrieben). Der Benutzer soll nur noch die 
Reglerdaten (Reglerkoeffizienten) in den Rechner einge- 
ben. Der Programmgenerator erstellt auf dem Gastrech- 
ner ein lauffähiges Programm für den TMS320. Hier- 
durch wird der Benutzer von der schwierigen 
Programmentwicklung entlastet. Um das erstellte Pro- 
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gramm vorher zu kontrollieren, soll noch ein Simula- 
tionsprogramm erstellt werden, mit dem der Prozessor 
TMS320 auf dem Gastrechner simuliert wird. Das Ergeb- 
nis der Simulation (z.B. Sprungantwort) wird dann 
grafisch auf dem Bildschirm des Gastrechners darge- 
stellt. 
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Dipl.-Ing. Wolfgang Loges 
Regelsysteme höherer 


Ordnung 


mit dem Signalprozessor TMS 320 


Ein System mit dem Signalprozessor TMS 320 stößt 
bei Regelungs- und Filtersystemen hoher Ordnung auf 
Grenzen, die in der geringen Speicherkapazität des 
Daten-RAMs begründet sind. Gemeint ist damit, daß 
die Koeffizienten, die als 16-Bit-Zweierkomplement- 


In der digitalen Regeltechnik ist Skalarproduktbil- 
dung die zentrale Rechenoperation. Der für die Skalar- 
produktbildung notwendige Multiplikationsbefehl des 
TMS 320 - für 16-Bit-Festkomma-Werte — setzt voraus, 
daß die Zahlen im Daten-RAM stehen. Bei Mehrgrößen- 
Regler hoher Ordnung mit mehreren Meßeingängen und 
mehreren Steuerausgängen kann die Koeffizientenzahl 
so groß werden, daß sie nicht mehr geschlossen im 
Daten-RAM unterzubringen ist. Um den TMS 320 auch 
bei diesen Anwendungen nutzen zu können, bedarf es 
besonderer Maßnahmen. Dieser Aufsatz beschreibt drei 
Verfahren, die eine Nutzung des TMS 320 in diesen 
Fällen ermöglichen. Um die drei Verfahren miteinander 
vergleichen zu können, wird nicht von dem üblichen 
Algorithmus für Mehrgrößen-Regler 
Xx+=Axık+Bu 
x =-Cx+Dw 
ausgegangen, sondern von der folgenden Form der 
Berechnung eines Vektors: 
= 
F ist eine nxn-Matrix. 

Bei Verwendung dieses Algorithmus liegt die Grenze 
dafür, daß alle Werte im Daten-RAM gespeichert werden 








Zahlen angenommen werden, nicht mehr geschlossen 
in das Daten-RAM passen. Der folgende Beitrag zeigt 
Möglichkeiten, wie auch in diesen Fällen mit dem 
Prozessor TMS 320 brauchbare Lösungen zu erzielen 
sind. 


können, bei n = 11. Dabei ergeben sich für die F-Matrix 
121 Elemente und für die Vektoren e und h jeweils 11 
Elemente, so daß insgesamt 143 Elemente abgespeichert 
werden müssen. 


1 Die Verfahren 


1.1 Anwendung des „Table-Read“-Befehls (TBLR) 





Der „Table-Read“-Befehl bietet die Möglichkeit, 
Daten, die im Programmspeicher stehen, in das Daten- 
RAM zu laden. Dazu muß vorher die Programmspeicher- 
adresse im Akkumulator vorhanden sein. Bei Ausfüh- 
rung des Table-Read-Befehls wird der Inhalt des Akku- 
mulators in den Programmzähler geladen. Sollen meh- 
rere Daten vom Programmspeicher in das Daten-RAM 
übertragen werden, ist es vorteilhaft, die Daten hinter- 
einander im Programmspeicher abzulegen. Das Pro- 
gramm für den Datentransfer sollte so gestaltet sein, daß 
die Adresse, unter der der Wert im Programmspeicher 
zu finden ist, mit dem Befehl „LACK“ in den Akkumula- 
tor geladen wird (Bild 1). Durch den nachfolgenden 
Table-Read-Befehl wird der erste Wert ins Daten-RAM 
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1000000000000000 


0001000000000000 1001000000000000 
0010000000000000 1010000000000000 
0011000000000000 1011000000000000 
0100000000000000 1100000000000000 
0101000000000000 1101000000000000 
0110000000000000 1110000000000000 
0111000000000000 1111000000000000 











geladen. An welche Stelle im Daten-RAM der Wert 
gespeichert wird, steht bei direkter Adressierung im 
Table-Read-Befehl. Durch Erhöhen des Akkumulatorin- 
halts um eins — über Additionsbefehl — kann mit dem 
Table-Read-Befehl der Inhalt der nächsten Programm- 
speicherstelle ins Daten-RAM übertragen werden. Bietet 
der Programmspeicher genügend Platz, sollte das Pro- 
gramm nicht als Schleife geschrieben sein, sondern für 
jedes zu übertragende Datenwort aus der Befehlskombi- 
nation TBLR/ADDS bestehen, um hier nicht unnötig Zeit 
zu verschenken. Die benötigte Zeit für die Übertragung 
eines Datenwortes beträgt 800 ns, die sich aus 600 ns für 
den Table-Read- und 200 ns für den Additionsbefehl 
(ADDS) zusammensetzen. 


1.2 Anwendung des „Input“-Befehls (IN) 








Mit dem Input-Befehl können von insgesamt acht 
adressierbaren Ports 16-Bit-Daten in das Daten-RAM 
geladen werden. Soll dieser Befehl genutzt werden, 
bedarf es zusätzlicher Hardware. Sie besteht aus einem 
RAM oder ROM, in dem die Koeffizienten gespeichert 
sind, einem Adreßzähler, der nach jedem Datenzugriff 
durch den Input-Befehl um eins erhöht wird, und der 
notwendigen Auswahllogik, damit der Speicher durch 
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die Portadresse angesprochen werden kann (Bild 2). Das 
notwendige Ladeprogramm kann, wenn der Programm- 
speicher genügend Platz bietet, aus der Hintereinander- 
reihung von Input-Befehlen bestehen (Bild 3). Dadurch 
liegt man zeitgünstiger als bei einer Schleifenprogram- 
mierung. Benutzt wird bei dem Ladeprogramm direkte 
Adressierung, so daß im Input-Befehl mit angegeben 
wird, an welche Stelle im Daten-RAM die Werte abge- 
legt werden sollen. Das Laden eines Datenwortes benö- 
tigt hier eine Zeit von 400 ns. 


1.3 Anwendung des Befehls 
„Multiply Immediate“ (MPYK) 


Durch diesen Befehl wird eine Zahl im T-Register des 
Multiplizierers mit einer 13-Bit-Konstanten (Zweier- 
komplement) multipliziert. Der Wert der Konstanten ist 
im Multiplikationsbefehl MPYK enthalten. Würde die F- 
Matrix nur 13-Bit-Koeffizienten enthalten, könnte man 
mit diesem Multiplikationsbefehl die Skalarprodukte 
direkt berechnen. Die Elemente des e- und h-Vektors 
müssen im Daten-RAM gespeichert sein, während die 
Koeffizienten der F-Matrix in der Software enthalten 
sind. Die Überlegung ist nun, wie dieser Multiplika- 
tionsbefehl MPYK auch bei 16-Bit-Koeffizienten zu nut- 
zen ist. Diese Möglichkeit bietet sich, wenn die 16-Bit- 
Koeffizienten f,; der F-Matrix in einen 13-Bit-Anteil fi,’ 
und einen 16-Bit-Anteil f,;' aufgespalten werden, so daß 
gilt: für = für + fu. Der 13-Bit-Anteil ist — wie oben 
erwähnt — im Multiplikationsbefehl MPYK enthalten. 
Der 16-Bit-Anteil muß im Daten-RAM abgespeichert 
werden. Der Vorteil dieser Aufspaltung liegt darin, daß 
für den 16-Bit-Anteil insgesamt nur 15 verschiedene 
Zahlen auftreten (siehe Tabelle 1). Wendet man diese 
Aufspaltung bei der Skalarproduktbildung an, lassen 
sich die Terme 


n 


eu = E f.:h; in 


i=1 
n 


eu = } (dr Fr fu )hi 


i=1 


(fu’h; + fur hi) 
i 1 
umwandeln. 
Das Programm für den TMS 320 zur Berechnung der 
Skalarprodukte unter Anwendung der oben angegebe- 
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nen Aufspaltung der 16-Bit-Koeffizienten f,; zeigt Bild 4. 
Für ein Skalarprodukt ergibt sich für das Programm 
nach Bild 4 eine Rechenzeit von t; = n 800 ns + 600 ns, 
wenn der TMS 320 mit 20-MHz-Takt läuft. Bei der 
Anwendung dieses Verfahrens werden im Daten-RAM 
15 Speicherplätze für die 16-Bit-Anteile f,; (Tabelle 1) 
und jeweils n Speicherplätze für die Vektoren e und h 
belegt. Von den 144 vorhandenen Speicherplätzen wird 
somit nur ein Teil benutzt. 

Die noch freien Speicherplätze sollten ebenfalls zu 
nutzen sein. Als Möglichkeit bietet sich hier an, einen 
Teil der 16-Bit-Koeffizienten f,; der F-Matrix direkt ins 
Daten-RAM zu speichern. Die Skalarprodukte mit die- 
sen Koeffizienten werden mit dem Programm berechnet, 
das in Bild 5 dargestellt ist. Durch Ausnutzen dieser 
Möglichkeit verringert sich die Rechenzeit für die 
Berechnung des e-Vektors gegenüber der alleinigen 
Anwendung des Programms nach Bild 4. Als Rechenzeit 
ergibt sich bei insgesamt n Skalarprodukten t, = (m 
400 ns + 600 ns) + (In - m] 800 ns + 600 ns), wenn 
angenommen wird, daß m Skalarprodukte mit dem Pro- 
gramm nach Bild 5 berechnet werden. 


2 Zeitbedarf für die Berechnung des Vektors e 


In Tabelle 2 ist für die drei Verfahren die Rechenzeit 
für den Vektor e für verschiedene n der F-Matrix zusam- 
mengestellt. Dabei wird von n > 11 ausgegangen, da die 
Koeffizienten bis n = 11 sich noch geschlossen im 
Daten-RAM speichern lassen. Das Programm für die 
Berechnung der Skalarprodukte für das Verfahren 
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„Table Read“ und „Input“ ist in Bild 5 zu sehen. Als 
Rechenzeit ergibt sich bei den beiden Verfahren für ein 
Skalarprodukt t; = n 400 ns + 600 ns. Für das Verfahren 
„Multiply Immediate“ wird die Rechenzeit t, zugrunde 
gelegt, wie in 1.3 angegeben. In den Tabellen 2a und 2b 
ist neben der Zeit für die Berechnung des Vektors e 
auch die Ladezeit mit aufgeführt. In Bild 6 sind für die 
drei Verfahren die benötigten Zeiten für die Berechnung 
des Vektors ein Abhängigkeit von n grafisch dargestellt. 
Ab n = 15 ist die Koeffizientenzahl von F so groß, daß 
bei den beiden Verfahren „Table Read“ und „Input“ 
während der Berechnung des Vektors e mehrmals 
umgeladen werden muß. 

Der Beitrag sollte eine Anregung geben, wie der 
TMS 320 auch in Systemen eingesetzt werden kann, bei 
denen die Koeffizientenzahl größer ist als der Speicher- 
platz im Daten-RAM. Es ergibt sich, daß der Table-Read- 
Befehl nicht immer die zeitoptimale Lösung bietet. Gün- 
stiger liegt man mit dem Input-Befehl, was aber mit 
zusätzlicher Hardware erkauft werden muß. Bei einer 
Koeffizientenzahl größer 200 bietet das in 1.3 vorge- 
stellte Verfahren die zeitlich bessere Lösung, weil bei 
den beiden anderen Verfahren hier mehrmals während 
der Berechnung des Vektors e umgeladen werden muß. 
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Tabelle 2. Rechenzeiten für den Vektor e 
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12 144 


19,2 84 
13 169 75,4 41,6 117 
14 196 86,8 67,2 ö 154 
15 225 99,0 164,0 263 
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74,4 

13 169 75,4 20,8 99,2 

14 196 86,8 33,6 120,4 

15 225 99,0 82,0 181,0 
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Multiprozessorkonzept für Industrieroboter: 





Mehrgrößenregelung mit Signalprozessoren 


Universell einsetzbare Industrieroboter verfügen über 
sechs oder mehr Freiheitsgrade mit entsprechend vie- 
len - meist elektrischen - Antriebseinheiten. Die Dreh- 
zahl- und Stromregelung der Maschinen erfolgt 
üblicherweise mit festeingestellten Analogreglern, 
während die weniger zeitkritische, aber genaue Lage- 
regelung digital ausgeführt ist. Für eine vollständige 
digitale Regelung ist die komplexe Regelstruktur eines 
Roboters in Teilaufgaben zu gliedern, die gleichzeitig 


Moderne Signalprozessoren erlangen für die Rege- 
lungstechnik wachsende Bedeutung, denn sie ermögli- 
chen bisher vorzugsweise theoretisch erprobte, arithme- 
tisch aufwendige Regelverfahren auch praktisch einzu- 
setzen. Als Beispiel, das für eine antriebstechnische 
Weiterentwicklung bei Industrierobotern von Bedeu- 
tung ist, sei hier die digitale Regelung kontaktfreier 
Drehstromstellantriebe genannt. Der Einsatz eines 
Signalprozessors ist erforderlich, um mit möglichst kur- 
zen Abtastintervallen eine hohe Bandbreite zu erreichen 
[1, 9]. Drehstrommotoren sind wartungsfrei, stärker 
belastbar und in Verbindung mit Transistorstellgliedern 
hoher Schaltfrequenz von besserer Dynamik als bislang 
bei Robotern eingesetzte Gleichstrommotoren. 

Werden Elemente einer Antriebsregelung durch Soft- 
ware ersetzt, so sinkt der Aufwand für Bauteile; Drift- 
probleme werden umgangen, und Reglereinstellungen 
können in definierter Weise im Rechner erfolgen. Mit 
einer digitalen Messung der Winkelstellung läßt sich die 
Drehzahl durch Differentiation leicht ermitteln, so daß 
ein Tachogenerator nicht erforderlich ist. 

Für hochdynamische Stellantriebe bietet die Kombi- 
nation eines universellen Mikrorechners für die Ein-/ 
Ausgabe mit einem Signalprozessor als Recheneinheit 
besonders günstige Voraussetzungen. Zur Regelung 
eines Roboters ist somit ein Multiprozessorsystem zu 
entwerfen, bei dem für jeden Antrieb ein eigener Rech- 
ner zur Verfügung steht. Zusätzliche Aufgaben ergeben 
sich durch die Verkopplung der einzelnen Achsen, die 
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von Komponenten eines Multiprozessorsystems bear- 
beitet werden können. Im folgenden wird ein Rechner- 
konzept vorgestellt, bei dem die Kopplung zwischen 
den Prozessoren im Hinblick auf die speziellen Echt- 
zeitanforderungen optimiert ist. Die Rechenleistung 
steigt durch den Einsatz von Signalprozessoren (TMS 
320) beträchtlich, so daß eine hohe Freizügigkeit hin- 
sichtlich der auszuführenden Regelalgorithmen 
erreichbar ist. 


mittels geeigneter Entkopplungen des Reglers zu berück- 
sichtigen sind. 

Ein freizügig verwendbares Multiprozessorsystem 
sollte aus standardisierten, modular gegliederten Kom- 
ponenten bestehen, um jederzeit Erweiterungen und 
einfache Fehlerdiagnosen zu erlauben. Problematisch ist 
die Verknüpfung der einzelnen Recheneinheiten, da der 
Zeitaufwand für den Datentransfer im Vergleich zu den 
Reglerberechnungen klein bleiben muß. Eine auf die 
Rechnerarchitektur abgestimmte Koppelsoftware ist 
deshalb unbedingt erforderlich. 





Bild 1. Beispiel eines 
Knickarmroboters mit 
drei Freiheitsgraden. 
Das um die senkrechte 
Achse drehbare Schul- 
tergelenk befindet sich 
im Ursprung eines 
rechtwinkligen Koordi- 
natensystems 
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Modell mit drei Freiheitsgraden 


Am Beispiel eines Gelenkroboters mit drei Freiheits- 
graden lassen sich die prinzipiellen Probleme einer digi- 
talen Regelung und die Realisierung mit einem Multi- 
prozessorsystem deutlich machen (Bild 1). Verstellun- 
gen werden durch drei den einzelnen Gelenken zuge- 
ordnete Antriebe vorgenommen. In den Gelenken und in 
der Hand sind konzentrierte Massen M; vorausgesetzt, 
die Armteile seien starr und masselos. 

Die Bewegungen eines solchen Robotermodells sind 
mit nichtlinearen, zeitvarianten Differentialgleichungen 


natensystem ins Gelenkkoordinatensystem und die 
Rücktransformation. Um die zwischen den einzelnen 
Achsen bestehenden statischen und kinematischen Ver- 
kopplungen auszugleichen, können am Ausgang der 
Drehzahlregler die Stromsollwerte innerhalb vorgegebe- 
ner Begrenzung modifiziert werden, z. B. in Form einer 
multiplikativen Verknüpfung mit dem jeweiligen Träg- 
heitsmoment. Diese Anpassung an die variablen Para- 
meter der Regelstrecke erfordert wiederum einen erheb- 
lichen Rechenaufwand und kann nur digital erfolgen. 
Insgesamt entsteht dadurch ein komplexes Mehrgrößen- 
Regelsystem mit adaptiven Zusatzfunktionen. 
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Bild 2. Komplexe Regelung eines Roboters in drei Achsen mit adaptiven Zusatzfunktionen 


genüberliegenden Seite ge- 
zeigte Multiprozessorsy- 
stem besteht aus mehreren 
baugleichen Doppelprozes- 
sorkarten, deren Kernstück 
ein Prozessor aus der 16- 
Bit-Generation TMS 99000 
bildet. Diese Prozessoren 
(TMS 99105 bzw. TMS 
99110) zeichnen sich durch 
eine Speicher-zu-Speicher- 
Architektur aus, die eine 


codierer 








beschrieben [2]. Wegen der variablen Geometrie ändern 
sich die für die einzelnen Antriebe wirksamen Träg- 
heitsmomente: 


Jı = M;- (tr, - c0os@,)? + M3: ({t3 : cospa + 14: cos) p + 3) 
,=M nm’+M nm’tr?+2 113° COSQ;) 
Js = Ms : 13? 

Das Gerät arbeitet einschließlich der Meßwerterfas- 
sung in gelenkbezogenen Koordinaten (9;). Will man 
aber Punkte in einem raumfesten, kartesischen Koordi- 
natensystem vorgeben, so ist eine Koordinatentransfor- 
mation durchzuführen, die wegen der trigonometri- 


schen Funktionen einen erheblichen Rechenaufwand 
bedingt: 

y.=- (r, - CoSpy + T3 : Cos(pa + Ps)) - COS@} 

n=- (r, - COS@a + T3 * cos(p, + @s)) - sin@, 

= 7*° sin@z + Fa * sin(@ A @;) 

Um das Gerät in Raumkoordinaten (x;) regeln zu kön- 
nen, muß man diese Gleichungen in wenigen Millise- 
kunden nach den Gelenkkoordinaten (g;) auflösen. 

Die Regelung dieses Modellroboters kann mit Hilfe 
dreier mehrschleifiger Kaskadenregelungen erfolgen 
(Bild 2), wobei je ein Lage-, ein Drehzahl- und ein 
Stromregelkreis ineinander verschachtelt sind. Den Rah- 
men bilden die Transformation vom raumfesten Koordi- 


kurze Interrupt-Antwortzeit 
(2,2 us bei 24-MHz-Takt) ge- 
währleistet. Weitere wichtige Merkmale dieser Prozes- 
soren sind: 
— 167 ns Zykluszeit; 
— 16 Interruptebenen; 
— 256 KByte adressierbarer Speicher; 
— 16 KBit Ein-/Ausgabe (Einzelbit); 
— 16 KWorte Ein-/Ausgabe (16 Bit parallel); 
— integrierter Taktoszillator und 
— Floating-Point-Befehle (nur TMS 99110). 
Da die Prozessoren TMS 99105 und TMS 99110 
anschlußkompatibel sind, ist eine wahlweise Bestük- 
kung der Prozessorkarte je nach Anforderung möglich. 
Zur vollen Ausnutzung der Prozessorleistung müssen 
schnelle RAMs eingesetzt werden, die einen Zugriff 
innerhalb 55 ns gestatten. 

Bild 3 zeigt die Blockschaltung der im Doppel-Euro- 
paformat aufgebauten Doppelprozessorkarte. Der Pro- 
zessor TMS 99105 besitzt 4 KWorte RAM, die ohne 
Wartezyklen betrieben werden. Weiterhin sind vier Sok- 
kel mit maximal 16 KWorten Speicher (wahlweise 
EPROM oder RAM) als Programm- und/oder Datenspei- 
cher ansprechbar. An Peripherie stehen auf der Karte 
zwei serielle Schnittstellen (TMS 9902) mit RS-232- 
Spezifikation sowie ein Interrupt-Controller — kombi- 
niert mit Zähler und Ein-/Ausgabeport (TMS 9901) - zur 
Verfügung. Diese Bausteine werden vom Hauptprozes- 
sor im bitseriellen E/A-Bereich angesprochen. 
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Über die beiden 96poli- 
gen Steckverbinder (DIN 
41 612) der Baugruppe hat 
der TMS 99105 Zugriff zu 
zwei unterschiedlichen 
Bussystemen. Ein Businter- 
face ist für den Aufbau ei- 
nes lokalen Ein-/Ausgabe- 
busses zum Anschluß der 
benötigten Sensoren (A/D- RS 232 









Umsetzer, Winkelcodierer Ale z 
; tewide - ommuni- 
usw.) sowie zur Ausgabe Se kafions- Daten-RAM 


der ermittelten Sollwerte (16 KWorte*) 


(D/A-Umsetzer) vorgesehen. 
Für diese Aufgaben stehen RS 232 
im parallelen 16-Bit-E/A- 
Bereich 8192 Adressen zur 
Verfügung. Weiterhin sind 


RAM ohne 
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(kKWorte*) 1. 99105 








Programm- 
RAM 
(4 KWorte *) 










TMS 









TMS 
(24 MHz) 320 
( 20 MHz) 





















RAM (4 KWorte*) 
(4 KWorte*) 





E/A-Bus- 
Interface 






Systembus- 
Interface 








*Wortbreite:16 Bit 


fast 16K Ein-/Ausgabe- Bild 3. Blockschaltung der verwendeten Doppelprozessorkarten mit Haupt- und Signalpro- 


adressen für die bitweise zessor, 











Adressierung von Periphe- 
rieeinheiten verwendbar. Zur schnellen Ankopplung 
der Peripherie sind acht der insgesamt 16 Interrupt- 
Ebenen des TMS 99105 vorgesehen. 

Der zweite Steckverbinder der Doppelprozessorkarte 
dient zur Kopplung von maximal 17 gleichartigen Kar- 
ten über einen gemeinsamen Systembus. Je nach 
Betriebsart der Baugruppe ist der Anschluß zum 
Systembus als aktives bzw. passives Interface konfigu- 
riert. Der Datenaustausch zwischen den Doppelprozes- 


sorkarten erfolgt mit Hilfe eines 4 KWorte großen Kom- 
munikationsspeichers und einer speziellen Kopplungs- 
software. 


Zur Synchronisation der über den Systembus gekop- 
pelten Baugruppen sind fünf Interrupt-Eingänge auf den 
Bussteckverbinder geführt. Ein Power-Fail-Eingang, des- 
sen Aktivierung einen nichtmaskierbaren Interrupt aus- 
löst, ist für ein definiertes Abschalten des Gesamtsy- 





Jedem Antrieb 
sein eigener Rechner 


Die Struktur der Achsregelung spiegelt sich direkt in dem 
entwickelten Multiprozessorsystem wider: Für die Regelung 
jeder Roboterachse kommt eine Rechnerkarte, bestückt mit 
einem 16-Bit-Prozessor TMS 99000 und einem Signalprozes- 
sor TMS 320, zum Einsatz. Meßwerterfassung und Sollwert- 
ausgabe erfolgen über den jeweiligen lokalen E/A-Bus 
getrennt für jede Achse. Für übergeordnete Funktionen wie 
Bahnsteuerungen oder Bedienerkommunikation können wei- 
tere Doppelprozessorkarten eingefügt werden. Der Daten- 
austausch zwischen den einzelnen Modulen des Gesamtsy- 
stems ist über einen Bus-Master organisiert, der mit speziel- 
ler Koppelsoftware auszurüsten ist. Insgesamt ist ein Ausbau 
auf 16 selbständig arbeitende Recheneinheiten möglich, die 
miteinander über den Bus-Master korrespondieren. Damit ist 
gewährleistet, daß auch für andere Roboter mit zusätzlichen 
Freiheitsgraden ausreichend Rechenleistung zur Verfügung 
steht. Da es sich um ein Forschungsvorhaben handelt, steht 
gegenwärtig die funktionsmäßige Freizügigkeit im Vorder- 
grund des Interesses; später muß natürlich eine Beschrän- 
kung des Aufwandes auf das unbedingt Notwendige er- 
folgen. 
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-Lage/Drehzahl 
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stems bei Spannungsausfall vorgesehen. Die Steckerbe- 
legung des Systembusses erlaubt das Verwenden einer 
VME-Bus-Rückwand, deren spezifizierte Übertragungs- 
eigenschaften der hohen Datentransfergeschwindigkeit 
des eingesetzten Prozessors genügen. 


„und Signalprozessor 


Mit dem Signalprozessor TMS 320 (20-MHz-Takt) auf 
der Platine wird die für komplexe digitale Regelungen in 
Echtzeit benötigte Rechenleistung bereitgestellt. Durch 
eine interne 32-Bit-Architektur, einen parallelen 16x 16- 
Bit-Multiplizierer und den 16 Bit breiten Datenbus 
erreicht der TMS 320 sehr kurze Ausführungszeiten. 
Zum Beispiel werden für eine 16% 16-Bit-Multiplikation 
nur 200 ns benötigt. 


beschriebenen Speicherbereich. Vom TMS 320 direkt 
angesprochen werden zwei D/A-Umsetzer, die insbeson- 
dere zur Anzeige von berechneten Werten und zum 
Messen von Programmlaufzeiten vorgesehen sind. 


Prozessorkopplung 


Die CPU TMS 99105 überwacht Initialisierung und 
Funktion des Signalprozessors vollständig. Dazu gehört 
das Auslösen eines Interrupts per Software und die 
Möglichkeit, den TMS 320 in den Resetzustand zu ver- 
setzen bzw. zu aktivieren. Der gesamte Speicher 
(8 KWorte) des Signalprozessors liegt im direkten 
Adreßraum des TMS 99105 und ist somit von diesem 
unmittelbar beschreibbar. 

Nach dem Rücksetzen des Signalprozessors vom TMS 
99105 aus kann der Pro- 
grammspeicher des 
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Bild 4. Kopplung der Prozessorkarten mit Systembus-Schnittstelle für Bus-Master und -Slave 


TMS 320 mit dem aus- 
zuführenden Code gela- 


den werden. Ebenso 
wird das Daten-RAM 
vom  Hauptprozessor 


gesetzt. Mit der Rück- 
nahme des Resetsignals 
am TMS 320 ist der Zu- 
griff des TMS 99105 auf 
den Programmspeicher 
des Signalprozessors 
hardwaremäßig ausge- 
schlossen. Die Überga- 
be von Daten und Steu- 


Fr. erbefehlen zwischen 
en den beiden Prozessoren 
Speicher ist jetzt auf das 4 KWor- 
(4 KWorte *) 

te große Daten-RAM 
des _Signalprozessors 
beschränkt. 





*Wortbreite: 16 Bit 


Die Synchronisation 
von zwei auf den Pro- 








Auf der Doppelprozessorkarte stehen für den 
TMS 320 4 KWorte RAM als Programmspeicher zur Ver- 
fügung. Zusätzlich zu den internen 144 Worten Daten- 
speicher können extern weitere 4 KWorte RAM als 
Datenspeicher angesprochen werden. Da die Adressier- 
fähigkeit des TMS 320 auf 4 KWorte Programm begrenzt 
ist, wird dieser Speicherbereich mit Hilfe eines Zählers 
adressiert. Damit ist die Möglichkeit gegeben, unabhän- 
gig vom Programmspeicher umfangreiche Koeffizienten- 
tabellen oder Regelungsparameter im Speicher bereitzu- 
stellen, die bei Bedarf in das TMS 320-interne RAM 
geladen werden. 

Weiterhin läuft die Kommunikation des Signalprozes- 
sors mit dem Hauptprozessor TMS 99105 über den 


zessoren parallel ablau- 

fenden Programmen ge- 
schieht über wechselseitige, per Software auszulösende 
Unterbrechungen und/oder die Abfrage von Semapho- 
ren. Die gegenseitige Verriegelung der verschiedenen 
Prozessorbusse erfolgt durch Adreß- und Datenbusum- 
schalter in Verbindung mit einer umfangreichen Steuer- 
logik. Bei einem gleichzeitigen Zugriff auf das als Kop- 
pelspeicher (Dual-Port-RAM) betriebene Daten-RAM 
wird der TMS 99105 durch Wartezyklen solange ange- 
halten, bis der TMS 320 seinen Zugriff beendet hat. 
Abhängig vom momentan ausgeführten Opcode des 
Signalprozessors ergeben sich dadurch für den reinen 
Transfer eines 16-Bit-Datenwortes vom TMS 99105 zum 
TMS 320 und umgekehrt Zeiten zwischen 330 ns und 
maximal 670 ns. 
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Rechnerkopplung über Bus-Master und -Slaves 


Ziel eines jeden Multiprozessorsystems auf der Basis 
von Mikroprozessoren ist es, ein Erhöhen des Gesamt- 
durchsatzes durch weitestgehende Parallelverarbeitung 
zu erreichen. Neben der Leistungsfähigkeit der einge- 
setzten Prozessoren sind die Architektur des Kommuni- 
kationssystems und die Organisation des Datenaustau- 
sches zwischen den Prozessoren ein entscheidender 
Punkt für die zu erreichende Systemleistung. Häufig 
dient zur Kopplung der einzelnen Baugruppen ein allen 
gemeinsamer Systembus (Multibus, VME-Bus usw.). Die 
von der Arbitrationslogik benötigte Zeit zur Zugriffszu- 
teilung verringert allerdings die tatsächliche Datentrans- 
ferrate erheblich. Für die vorliegende Problemstellung 
mit ihren Echtzeitanforderungen mußte daher eine 
andere Lösung gefunden werden. 

Geht man von den speziellen Anforderungen einer 
digitalen Regelung für einen Roboter aus, so ergibt sich 
aus der Forderung nach einer möglichst hohen Abtast- 
frequenz eine entsprechende Datentransferrate. Dabei ist 
die Anzahl der pro Achsrechner in einem Abtastraster 
zu übertragenden Datenworte relativ gering (etwa 
20...50). Allerdings werden die berechneten Werte eines 
Achsrechners gleichzeitig bei mehreren anderen Rech- 
nern benötigt. Auf Grund dieser Situation wurde für den 
Datenaustausch zwischen den Systemeinheiten die im 
Kasten dargestellte Architektur verwirklicht. 

Der Austausch der Daten zwischen den Einheiten des 
Multiprozessorsystems wird von einer als Bus-Master 
(Steuerrechner) bezeichneten Prozessorkarte ausgeführt 
und erfolgt in einem festen Zeitraster, das dem Abtastra- 
ster entsprechen kann. Alle weiteren Baugruppen des 
Systems sind an diesem Vorgang nur passiv beteiligt, sie 
müssen lediglich die Transferdaten in einem eigens 
dafür vorgesehenen Kommunikationsspeicher bereit- 
stellen. Der Ablauf eines Datentransfers ist dann wie 
folgt: 

— Die zu übertragenden Daten werden vom Bus-Master 
nacheinander bei den Bus-Slaves (Teilrechner) einge- 
sammelt. Dazu wird vom Bus-Master mittels einer 
Kartenadresse der jeweilige Bus-Slave selektiert und 
in den HOLD-Zustand versetzt. Nach dem Auslesen 
der Daten aus dem 4 KWorte großen Kommunikations- 
speicher des Bus-Slaves wird vom Bus-Master das 
HOLD-Signal für diese Baugruppe wieder deaktiviert 
(bei den übrigen Bus-Slaves entsprechend). 

— Nachdem die Daten vollständig eingesammelt sind, 
versetzt der Bus-Master alle angeschlossenen Bus-Sla- 
ves gemeinsam in den HOLD-Zustand. Dann werden 
die zuvor gesammelten Daten gleichzeitig in die Kom- 
munikationsspeicher aller Bus-Slaves geschrieben. 
Die hohe Transferrate des Systembusses (6 MByte/s) 

führt in Verbindung mit der Einsparung von Schreibzyk- 

len zu einer wesentlichen Steigerung des Datendurch- 
satzes im Gesamtsystem. 

Um gleiche Baugruppen zu erhalten, wird die Funk- 
tion des Bus-Masters bzw. eines Teilrechners von der 
gleichen Doppelprozessorkarte erfüllt. Die jeweilige 
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Betriebsart der Baugruppe ist nur durch die zugehörige 
Software und das Umsetzen einiger Steckverbinder auf 
der Karte festgelegt. Bild 4 zeigt die Systembus-Schnitt- 
stelle für den Bus-Master und für einen Bus-Slave. 


Entwicklungsstand 


Das beschriebene Multiprozessorsystem befindet sich 
zur Zeit am Institut für Regelungstechnik der TU Braun- 
schweig in der Erprobung. Mit Hilfe der auf jeder Rech- 
nerkarte vorhandenen Schnittstellen und der entwickel- 
ten Betriebssoftware (Disassembler, Single-Step-Pro- 
gramm für TMS 99000 und TMS 320) lassen sich effi- 
ziente Softwaretests durchführen [3, 4]. Die Installation 
der auf den einzelnen Systemeinheiten ablaufenden 
Regelprogramme ist hierdurch wesentlich erleichtert. 
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Die ELEKTRONIK informiert Sie 
über das Produktangebot 

auf dem internationalen Markt: 
@ Bauelemente @ Meßgeräte 

@ Mikrocomputer @ Datentechnik 
®@ Fertigungsmittel @ Software 

@ Steuer- und Regeltechnik 

@ Prüftechnik 


Die ELEKTRONIK informiert Sie 
über Aktuelles in der Branche: 
Kurzmeldungen aus aller Welt zum The- 
ma @ Technologien @ Verfahren 

® Neuheiten @ Unternehmen 

@ Termine @ Personen 


Die ELEKTRONIK informiert Sie 
mit Sonderpublikationen als Heft im 
Heft über @ CAD/CAM Rechner- 
unterstützte Entwicklung und 
Fertigung ® COM & PRO Computer 
und Programme für Anwender 

von OEM-Produkten ® TELECOM 
Bausteine und Verfahren der 
Telekommunikation 

@ ROBOTER Flexible Automati- 
sierung in der Industrie 


Bitte verwenden Sie zum 


Kennenlernen unserer ELEKTRONIK 
nebenstehende Karte. 


ik 


Fachzeitschrift für Entwickler und industrielle Anwender 





Die Mikrocomputer-Zeitschrift 








Die Mikrocomputer-Zeitschrift, 
die ihre Leser zu Profis macht: 


Mc liefert Grundlagen für alle, die 
sich mehr als nur vordergründig 
mit der Mikrocomputerei befassen 
möchten... 


ME informiert umfassend. Über 
Computer und Peripherie, über 


Programmiersprachen und Betriebs- 


systeme... 


MC regt an, auch mal etwas selbst 

zu bauen. Denn MC präsentiert 
Applikationen vom einfachen Interface 
bis zum kompletten Selbstbausystem. 


MC setzt allgemeines technisches 
Verständnis voraus, weil sie den 
ernsthaft Interessierten weiterbringen 
will... 


Mc testet Hardware und prüft 
Programme. MC gibt so Entschei- 
dungshilfe vor einer Anschaffung. 


MC hat auf alle Fragen zur Computer- 
technik eine Antwort. Mit Hilfe Ihres 
Computers und eines Telefonmodems 
können Sie Programme und Literatur- 
stellen direkt bei MC abrufen... 


mc kann man ganz einfach kennenlernen. 


Die nebenstehende Kennenlernkarte 


ist dafür bestimmt. 


Die Mikrocomputer-Zeitschrift 


